論文の概要: Overcoming Catastrophic Forgetting beyond Continual Learning: Balanced
Training for Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2203.03910v1
- Date: Tue, 8 Mar 2022 08:08:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 13:31:03.255590
- Title: Overcoming Catastrophic Forgetting beyond Continual Learning: Balanced
Training for Neural Machine Translation
- Title(参考訳): 継続的学習を超えた破滅的な忘れを克服する: ニューラルマシン翻訳のためのバランスのとれたトレーニング
- Authors: Chenze Shao, Yang Feng
- Abstract要約: ニューラルネットワークは、動的データ分布から複数のタスクを逐次学習する際に、これまで学んだ知識を忘れがちである。
この問題はtextitcatastrophic forgettingと呼ばれ、ニューラルネットワークの継続的な学習における根本的な課題である。
本研究では,特定のデータ注文に基づいて訓練された教師モデルを動的に更新し,学生モデルに補完的知識を反復的に提供するための補完的オンライン知識蒸留(COKD)を提案する。
- 参考スコア(独自算出の注目度): 15.309573393914462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural networks tend to gradually forget the previously learned knowledge
when learning multiple tasks sequentially from dynamic data distributions. This
problem is called \textit{catastrophic forgetting}, which is a fundamental
challenge in the continual learning of neural networks. In this work, we
observe that catastrophic forgetting not only occurs in continual learning but
also affects the traditional static training. Neural networks, especially
neural machine translation models, suffer from catastrophic forgetting even if
they learn from a static training set. To be specific, the final model pays
imbalanced attention to training samples, where recently exposed samples
attract more attention than earlier samples. The underlying cause is that
training samples do not get balanced training in each model update, so we name
this problem \textit{imbalanced training}. To alleviate this problem, we
propose Complementary Online Knowledge Distillation (COKD), which uses
dynamically updated teacher models trained on specific data orders to
iteratively provide complementary knowledge to the student model. Experimental
results on multiple machine translation tasks show that our method successfully
alleviates the problem of imbalanced training and achieves substantial
improvements over strong baseline systems.
- Abstract(参考訳): ニューラルネットワークは、動的データ分布から複数のタスクを逐次学習する際に、学習した知識を徐々に忘れる傾向にある。
この問題は 'textit{catastrophic forgetting' と呼ばれ、ニューラルネットワークの継続的な学習における根本的な課題である。
本研究では,連続的な学習だけでなく,従来の静的学習にも大きな影響があることを観察する。
ニューラルネットワーク、特にニューラルマシン翻訳モデルは、静的トレーニングセットから学習しても破滅的な忘れがちである。
具体的に言うと、最終モデルはトレーニングサンプルに不均衡な注意を払っており、最近露出したサンプルは以前のサンプルよりも多くの注意を引き付けている。
根本的な原因は、トレーニングサンプルが各モデル更新でバランスのとれたトレーニングを受けていないため、この問題をtextit{imbalanced training}と命名する。
そこで本研究では,特定のデータ順に学習した教師モデルを用いて,学生モデルに相補的知識を反復的に提供するための補足的オンライン知識蒸留(cokd)を提案する。
複数の機械翻訳タスクの実験結果から,本手法は不均衡学習の問題を軽減し,強力なベースラインシステムに対する大幅な改善を実現する。
関連論文リスト
- Efficient Training with Denoised Neural Weights [65.14892033932895]
この研究は、初期化のために神経重みを合成するウェイトジェネレータを構築するための新しい一歩を踏み出した。
本稿では,モデル重みの収集を容易にするために,GANを用いた画像間翻訳タスクを例に挙げる。
拡散モデルによって予測される重み付き画像翻訳モデルを初期化することにより、トレーニングは43.3秒しか必要としない。
論文 参考訳(メタデータ) (2024-07-16T17:59:42Z) - Simplifying Neural Network Training Under Class Imbalance [77.39968702907817]
実世界のデータセットは、しばしば高いクラス不均衡であり、ディープラーニングモデルのパフォーマンスに悪影響を及ぼす可能性がある。
クラス不均衡下でのニューラルネットワークのトレーニングに関する研究の大部分は、特殊な損失関数、サンプリング技術、または2段階のトレーニング手順に焦点を当てている。
バッチサイズやデータ拡張,ラベルの平滑化といった,標準的なディープラーニングパイプラインの既存のコンポーネントを単にチューニングするだけで,そのような特殊なクラス不均衡な手法を使わずに,最先端のパフォーマンスを達成できることを実証する。
論文 参考訳(メタデータ) (2023-12-05T05:52:44Z) - IF2Net: Innately Forgetting-Free Networks for Continual Learning [49.57495829364827]
継続的な学習は、以前に学んだ知識に干渉することなく、新しい概念を漸進的に吸収することができる。
ニューラルネットワークの特性に触発され,本研究は,IF2Net(Innately Forgetting-free Network)の設計方法について検討した。
IF2Netは、1つのネットワークがテスト時にタスクのIDを告げることなく、本質的に無制限のマッピングルールを学習することを可能にする。
論文 参考訳(メタデータ) (2023-06-18T05:26:49Z) - Learn, Unlearn and Relearn: An Online Learning Paradigm for Deep Neural
Networks [12.525959293825318]
我々は、ディープニューラルネットワーク(DNN)のためのオンライン学習パラダイムであるLearning, Unlearn, and Relearn(LURE)を紹介する。
LUREは、モデルの望ましくない情報を選択的に忘れる未学習フェーズと、一般化可能な特徴の学習を強調する再学習フェーズとを交換する。
トレーニングパラダイムは、分類と少数ショット設定の両方において、データセット間で一貫したパフォーマンス向上を提供します。
論文 参考訳(メタデータ) (2023-03-18T16:45:54Z) - DCLP: Neural Architecture Predictor with Curriculum Contrastive Learning [5.2319020651074215]
ニューラル予測器(DCLP)のためのカリキュラム誘導型コントラスト学習フレームワークを提案する。
本手法は,新たなカリキュラムを設計し,ラベルのないトレーニングデータ分布の安定性を高めることで,対照的なタスクを単純化する。
我々は既存の予測器と比較してDCLPの精度と効率が優れていることを実験的に実証した。
論文 参考訳(メタデータ) (2023-02-25T08:16:21Z) - Boosted Dynamic Neural Networks [53.559833501288146]
典型的なEDNNは、ネットワークバックボーンの異なる層に複数の予測ヘッドを持つ。
モデルを最適化するために、これらの予測ヘッドとネットワークバックボーンは、トレーニングデータのバッチ毎にトレーニングされる。
トレーニングと2つのフェーズでのインプットの異なるテストは、トレーニングとデータ分散のテストのミスマッチを引き起こす。
EDNNを勾配強化にインスパイアされた付加モデルとして定式化し、モデルを効果的に最適化するための複数のトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-11-30T04:23:12Z) - Explain to Not Forget: Defending Against Catastrophic Forgetting with
XAI [10.374979214803805]
破滅的な忘れは、ニューラルネットワークが新しい情報を与えられたときの過去の知識を完全に忘れてしまう現象を記述している。
我々は、ニューラルネットワークが新しいデータをトレーニングする際に、以前のタスクで既に学んだ情報を保持するために、レイヤーワイズ関連伝播を利用する、トレーニングと呼ばれる新しいトレーニングアルゴリズムを提案する。
我々の手法は、ニューラルネットワーク内の古いタスクの知識をうまく保持するだけでなく、他の最先端のソリューションよりもリソース効率が良い。
論文 参考訳(メタデータ) (2022-05-04T08:00:49Z) - Dynamic Neural Diversification: Path to Computationally Sustainable
Neural Networks [68.8204255655161]
訓練可能なパラメータが制限された小さなニューラルネットワークは、多くの単純なタスクに対してリソース効率の高い候補となる。
学習過程において隠れた層内のニューロンの多様性を探索する。
ニューロンの多様性がモデルの予測にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2021-09-20T15:12:16Z) - Learning to Reweight with Deep Interactions [104.68509759134878]
本稿では,教師モデルに内部状態を提供する改良型データ再重み付けアルゴリズムを提案する。
クリーン/ノイズラベルとニューラルマシン翻訳を用いた画像分類実験は、我々のアルゴリズムが従来の手法よりも大幅に改善されていることを実証的に実証した。
論文 参考訳(メタデータ) (2020-07-09T09:06:31Z) - Neural Network Retraining for Model Serving [32.857847595096025]
我々は、推論における新しいデータの継続的な流れに対応するために、ニューラルネットワークモデルの漸進的(再)トレーニングを提案する。
破滅的な再トレーニングと効率的な再トレーニングの2つの課題に対処する。
論文 参考訳(メタデータ) (2020-04-29T13:52:28Z) - Frosting Weights for Better Continual Training [22.554993259239307]
ニューラルネットワークモデルをトレーニングすることは、生涯にわたる学習プロセスであり、計算集約的なプロセスである。
ディープニューラルネットワークモデルは、新しいデータの再トレーニング中に破滅的な忘れに悩まされる可能性がある。
そこで我々は,この問題を解決するために,勾配向上とメタラーニングという2つの一般的なアンサンブルアプローチを提案する。
論文 参考訳(メタデータ) (2020-01-07T00:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。