論文の概要: Investigating Catastrophic Forgetting During Continual Training for
Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2011.00678v3
- Date: Mon, 30 Nov 2020 06:56:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 10:45:41.808681
- Title: Investigating Catastrophic Forgetting During Continual Training for
Neural Machine Translation
- Title(参考訳): ニューラルマシン翻訳の継続訓練における破滅的予測の検討
- Authors: Shuhao Gu and Yang Feng
- Abstract要約: 我々は,モジュールやパラメータの観点から,破滅的な忘れ方の原因を考察する。
言語ペアとドメインをまたいだ実験を行い、その妥当性と信頼性を確保する。
- 参考スコア(独自算出の注目度): 23.910477693942905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural machine translation (NMT) models usually suffer from catastrophic
forgetting during continual training where the models tend to gradually forget
previously learned knowledge and swing to fit the newly added data which may
have a different distribution, e.g. a different domain. Although many methods
have been proposed to solve this problem, we cannot get to know what causes
this phenomenon yet. Under the background of domain adaptation, we investigate
the cause of catastrophic forgetting from the perspectives of modules and
parameters (neurons). The investigation on the modules of the NMT model shows
that some modules have tight relation with the general-domain knowledge while
some other modules are more essential in the domain adaptation. And the
investigation on the parameters shows that some parameters are important for
both the general-domain and in-domain translation and the great change of them
during continual training brings about the performance decline in
general-domain. We conduct experiments across different language pairs and
domains to ensure the validity and reliability of our findings.
- Abstract(参考訳): ニューラルマシン翻訳(NMT)モデルは通常、連続的なトレーニング中に破滅的な忘れ込みに悩まされ、モデルが学習した知識を徐々に忘れ、異なる領域のように異なる分布を持つ可能性のある新たなデータに適合するように振る舞う傾向にある。
この問題を解決するために多くの方法が提案されているが、この現象の原因はまだ不明である。
ドメイン適応の背景として,モジュールとパラメータ(ニューロン)の観点から破滅的忘れの原因を考察する。
NMTモデルの加群についての調査は、いくつかの加群が一般領域の知識と密接な関係を持つ一方で、他の加群はドメイン適応においてより不可欠であることを示している。
また,パラメータの検討から,一般ドメイン翻訳とドメイン内翻訳の両面で重要なパラメータと,継続トレーニングにおけるパラメータの大きな変化が,一般ドメインの性能低下をもたらすことが示唆された。
結果の妥当性と信頼性を確保するため,異なる言語ペアとドメインをまたいで実験を行った。
関連論文リスト
- Domain Generalization via Causal Adjustment for Cross-Domain Sentiment
Analysis [59.73582306457387]
クロスドメイン感情分析における領域一般化の問題に焦点をあてる。
本稿では,ドメイン固有表現とドメイン不変表現をアンタングル化するバックドア調整に基づく因果モデルを提案する。
一連の実験は、我々のモデルの優れたパフォーマンスと堅牢性を示しています。
論文 参考訳(メタデータ) (2024-02-22T13:26:56Z) - Improving Domain Generalization with Domain Relations [77.63345406973097]
本稿では、モデルがトレーニングされたドメインと異なる新しいドメインに適用されたときに発生するドメインシフトに焦点を当てる。
ドメイン固有モデルを学習するためのD$3$Gという新しい手法を提案する。
以上の結果から,D$3$Gは最先端の手法より一貫して優れていた。
論文 参考訳(メタデータ) (2023-02-06T08:11:16Z) - Dynamic Domain Generalization [10.252262302724608]
我々は、動的ドメイン一般化(DDG)と呼ばれる新しいDG変種を開発し、モデルが異なるドメインからのデータに適応するために、ネットワークパラメータをツイストすることを学ぶ。
具体的には、メタ調整器を利用して、異なるドメインの異なるデータに対して静的モデルに基づいてネットワークパラメータをツイストする。
このように、静的モデルはドメイン共有機能を学ぶために最適化され、メタ調整器はドメイン固有の機能を学ぶために設計されている。
論文 参考訳(メタデータ) (2022-05-27T11:29:03Z) - Forget Less, Count Better: A Domain-Incremental Self-Distillation
Learning Benchmark for Lifelong Crowd Counting [51.44987756859706]
オフザシェルフ法は複数のドメインを扱うのにいくつかの欠点がある。
生涯クラウドカウンティングは、壊滅的な忘れを緩和し、一般化能力を改善することを目的としている。
論文 参考訳(メタデータ) (2022-05-06T15:37:56Z) - On Generalizing Beyond Domains in Cross-Domain Continual Learning [91.56748415975683]
ディープニューラルネットワークは、新しいタスクを学んだ後、これまで学んだ知識の破滅的な忘れ込みに悩まされることが多い。
提案手法は、ドメインシフト中の新しいタスクを精度良く学習することで、DomainNetやOfficeHomeといった挑戦的なデータセットで最大10%向上する。
論文 参考訳(メタデータ) (2022-03-08T09:57:48Z) - Domain Generalization via Gradient Surgery [5.38147998080533]
現実のアプリケーションでは、マシンラーニングモデルは、トレーニングとテストドメイン間のデータ分散の変化があるシナリオに直面します。
本研究では,ドメインシフトのシナリオに現れる矛盾する勾配を特徴付けるとともに,新たな勾配合意戦略を考案する。
論文 参考訳(メタデータ) (2021-08-03T16:49:25Z) - Domain Adaptation and Multi-Domain Adaptation for Neural Machine
Translation: A Survey [9.645196221785694]
ニューラルマシン翻訳(nmt)モデルのドメイン適応に対するロバストなアプローチに注目した。
特に、システムが複数のドメインから文を翻訳する必要がある場合を検討します。
我々はNMT研究の他の分野に対するドメイン適応とマルチドメイン適応技術の利点を強調した。
論文 参考訳(メタデータ) (2021-04-14T16:21:37Z) - Pruning-then-Expanding Model for Domain Adaptation of Neural Machine
Translation [9.403585397617865]
ドメイン適応はニューラルネットワーク翻訳の実践的応用に広く用いられている。
既存のドメイン適応法は、通常、破滅的な忘れ、ドメインの分岐、そしてモデル爆発に苦しむ。
本研究では、翻訳モデルにおけるニューロンやパラメータの重要性に基づいた「分割・征服」手法を提案する。
論文 参考訳(メタデータ) (2021-03-25T08:57:09Z) - Continual Adaptation of Visual Representations via Domain Randomization
and Meta-learning [21.50683576864347]
ほとんどの標準的な学習アプローチは、異なる性質のサンプルを逐次訓練すると、漂流しにくい脆弱なモデルにつながる。
忘れることに対して本質的により堅牢なモデルを学ぶ方法の1つは、ドメインのランダム化である。
正規化子は、現在のドメインから異なる"副次的"メタドメインへのモデル転送に関連する損失を明示的に罰するメタラーニング戦略を考案する。
論文 参考訳(メタデータ) (2020-12-08T09:54:51Z) - Learning to Learn with Variational Information Bottleneck for Domain
Generalization [128.90691697063616]
ドメイン一般化モデルは、これまで見つからなかった領域に一般化することを学ぶが、予測の不確実性とドメインシフトに悩まされる。
ドメイン一般化のための確率論的メタラーニングモデルを導入し、ドメイン間で共有されるパラメータを分布としてモデル化する。
ドメインシフトに対処するため、メタ変動情報ボトルネックという提案原則を用いてドメイン不変表現を学習し、メタVIBと呼ぶ。
論文 参考訳(メタデータ) (2020-07-15T12:05:52Z) - Few-Shot Learning as Domain Adaptation: Algorithm and Analysis [120.75020271706978]
わずかながらの学習は、目に見えないクラスを認識するために、目に見えないクラスから学んだ事前知識を使用する。
このクラス差による分布シフトは、ドメインシフトの特別なケースとみなすことができる。
メタラーニングフレームワークにおいて、そのようなドメインシフト問題に明示的に対処するために、注意を向けたプロトタイプドメイン適応ネットワーク(DAPNA)を提案する。
論文 参考訳(メタデータ) (2020-02-06T01:04:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。