論文の概要: Continual Learning of Neural Machine Translation within Low Forgetting
Risk Regions
- arxiv url: http://arxiv.org/abs/2211.01542v2
- Date: Fri, 4 Nov 2022 02:10:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 13:31:26.297677
- Title: Continual Learning of Neural Machine Translation within Low Forgetting
Risk Regions
- Title(参考訳): 低予測リスク領域におけるニューラルマシン翻訳の連続学習
- Authors: Shuhao Gu, Bojie Hu, Yang Feng
- Abstract要約: 我々は,多目的学習を補助的損失で行う,広く用いられている正規化に基づく手法が,誤った問題に悩まされていることを論じる。
実損失の局所的特徴に基づく2段階学習手法を提案する。
ドメイン適応とより困難な言語適応タスクについて実験を行い,実験結果から本手法が大幅な改善を達成できることが示唆された。
- 参考スコア(独自算出の注目度): 21.488675531980444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper considers continual learning of large-scale pretrained neural
machine translation model without accessing the previous training data or
introducing model separation. We argue that the widely used
regularization-based methods, which perform multi-objective learning with an
auxiliary loss, suffer from the misestimate problem and cannot always achieve a
good balance between the previous and new tasks. To solve the problem, we
propose a two-stage training method based on the local features of the real
loss. We first search low forgetting risk regions, where the model can retain
the performance on the previous task as the parameters are updated, to avoid
the catastrophic forgetting problem. Then we can continually train the model
within this region only with the new training data to fit the new task.
Specifically, we propose two methods to search the low forgetting risk regions,
which are based on the curvature of loss and the impacts of the parameters on
the model output, respectively. We conduct experiments on domain adaptation and
more challenging language adaptation tasks, and the experimental results show
that our method can achieve significant improvements compared with several
strong baselines.
- Abstract(参考訳): 本稿では,従来のトレーニングデータにアクセスしたり,モデル分離を導入することなく,大規模事前学習型ニューラルマシン翻訳モデルの連続学習を検討する。
補助的損失を伴う多目的学習を行う広範に使用される正規化ベース手法は, 誤評価問題に苦しめられ, 従来課題と新しい課題のバランスが常に良好に保たれていない。
そこで本研究では,実損失の局所的特徴に基づく2段階学習手法を提案する。
まず、パラメータが更新されると、モデルが前のタスクのパフォーマンスを維持できるリスク領域を低く探索し、破滅的な忘れの問題を避ける。
そして、新しいタスクに適合するように、新しいトレーニングデータだけで、この領域内でモデルを継続的にトレーニングできます。
具体的には,モデル出力に対する損失の曲率とパラメータの影響を基準として,忘れられるリスク領域を探索する2つの手法を提案する。
我々はドメイン適応とより困難な言語適応タスクについて実験を行い、実験の結果、複数の強力なベースラインと比較して、この手法が大幅に改善できることが示されている。
関連論文リスト
- How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。
線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文 参考訳(メタデータ) (2023-10-12T15:01:43Z) - Continual Learning with Pretrained Backbones by Tuning in the Input
Space [44.97953547553997]
ディープラーニングモデルを非定常環境に適用することの本質的な困難さは、ニューラルネットワークの実際のタスクへの適用性を制限している。
ネットワークの事前学習部分の更新を回避し、通常の分類ヘッドだけでなく、新たに導入した学習可能なパラメータのセットも学習することで、微調整手順をより効果的にするための新しい戦略を提案する。
論文 参考訳(メタデータ) (2023-06-05T15:11:59Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - On Generalizing Beyond Domains in Cross-Domain Continual Learning [91.56748415975683]
ディープニューラルネットワークは、新しいタスクを学んだ後、これまで学んだ知識の破滅的な忘れ込みに悩まされることが多い。
提案手法は、ドメインシフト中の新しいタスクを精度良く学習することで、DomainNetやOfficeHomeといった挑戦的なデータセットで最大10%向上する。
論文 参考訳(メタデータ) (2022-03-08T09:57:48Z) - Overcoming Catastrophic Forgetting in Incremental Few-Shot Learning by
Finding Flat Minima [23.97486216731355]
本稿では,いくつかの例で新たなカテゴリを継続的に認識するモデルを必要とする,漸進的な数ショット学習について考察する。
我々の研究は、既存の手法が、漸進学習においてよく知られた、破滅的な忘れ込みにひどく悩まされていることを示唆している。
そこで本研究では,基礎訓練対象関数の平坦な局所最小値の探索を行い,新しいタスクに基づいて平坦な領域内のモデルパラメータを微調整する。
論文 参考訳(メタデータ) (2021-10-30T14:00:40Z) - Learning Neural Models for Natural Language Processing in the Face of
Distributional Shift [10.990447273771592]
特定のデータセットでひとつのタスクを実行するための強力な神経予測器をトレーニングするNLPのパラダイムが、さまざまなアプリケーションで最先端のパフォーマンスを実現している。
データ分布が定常である、すなわち、トレーニングとテストの時間の両方で、データは固定された分布からサンプリングされる、という仮定に基づいて構築される。
この方法でのトレーニングは、人間が絶えず変化する情報の流れの中で学習し、操作できる方法と矛盾する。
データ分散がモデル寿命の経過とともにシフトすることが期待される実世界のユースケースに不適応である。
論文 参考訳(メタデータ) (2021-09-03T14:29:20Z) - Last Layer Marginal Likelihood for Invariance Learning [12.00078928875924]
我々は、より大きな確率関数のクラスに対する推論を行うことができるような、限界確率に対する新しい下界を導入する。
我々は、最後の層にガウス的プロセスを持つアーキテクチャを使用することで、このアプローチをニューラルネットワークに導入することに取り組んでいます。
論文 参考訳(メタデータ) (2021-06-14T15:40:51Z) - Minimax Lower Bounds for Transfer Learning with Linear and One-hidden
Layer Neural Networks [27.44348371795822]
転送学習の限界を特徴付けるための統計的ミニマックスフレームワークを開発する。
ラベル付きソース数とターゲットデータの関数として,任意のアルゴリズムで達成可能なターゲット一般化誤差に対して,低いバウンドを導出する。
論文 参考訳(メタデータ) (2020-06-16T22:49:26Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z) - Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。