論文の概要: Pseudo-Label Training and Model Inertia in Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2305.11808v1
- Date: Fri, 19 May 2023 16:45:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 13:19:33.615994
- Title: Pseudo-Label Training and Model Inertia in Neural Machine Translation
- Title(参考訳): ニューラルマシン翻訳における擬似ラベル訓練とモデル慣性
- Authors: Benjamin Hsu, Anna Currey, Xing Niu, Maria N\u{a}dejde and Georgiana
Dinu
- Abstract要約: ニューラルマシン翻訳(NMT)モデルは、小さな入力変更に敏感であり、リトレーニングやインクリメンタルモデル更新間で大きな変動を示す可能性がある。
本研究は,NMT(Pseudo-label Training, PLT)において, フォワード翻訳や自己学習の関連技術に共通する頻繁な手法について研究する。
品質の影響はよく文書化されていますが、あまり知られていない効果が浮かび上がっています。PLはモデルの安定性を高めて、モデルの更新や入力の摂動をモデル化します。
- 参考スコア(独自算出の注目度): 18.006833174265612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Like many other machine learning applications, neural machine translation
(NMT) benefits from over-parameterized deep neural models. However, these
models have been observed to be brittle: NMT model predictions are sensitive to
small input changes and can show significant variation across re-training or
incremental model updates. This work studies a frequently used method in NMT,
pseudo-label training (PLT), which is common to the related techniques of
forward-translation (or self-training) and sequence-level knowledge
distillation. While the effect of PLT on quality is well-documented, we
highlight a lesser-known effect: PLT can enhance a model's stability to model
updates and input perturbations, a set of properties we call model inertia. We
study inertia effects under different training settings and we identify
distribution simplification as a mechanism behind the observed results.
- Abstract(参考訳): 他の多くの機械学習アプリケーションと同様に、ニューラルネットワーク翻訳(nmt)は、過剰パラメータのディープニューラルモデルから恩恵を受ける。
NMTモデル予測は小さな入力変化に敏感であり、再学習や漸進的なモデル更新の間に大きな変化を示す可能性がある。
本研究は,NMTにおいて多用される擬似ラベル訓練(PLT, pseudo-label training)の手法について検討し,この手法は,前方翻訳(あるいは自己学習)とシーケンスレベルの知識蒸留(Sequence-level knowledge distillation)の関連技術に共通している。
pltはモデル更新と入力摂動(model inertia)と呼ばれるプロパティの集合であるモデル更新と入力摂動に対して、モデルの安定性を高めます。
異なるトレーニング環境下での慣性効果について検討し,観察結果の背後にあるメカニズムとして分布単純化を同定した。
関連論文リスト
- Enhancing Dynamical System Modeling through Interpretable Machine
Learning Augmentations: A Case Study in Cathodic Electrophoretic Deposition [0.8796261172196743]
本稿では,物理システムのモデリング向上を目的とした包括的データ駆動フレームワークを提案する。
実証的応用として,電顕的電気泳動沈着(EPD)のモデル化を追求する。
論文 参考訳(メタデータ) (2024-01-16T14:58:21Z) - Latent State Models of Training Dynamics [51.88132043461152]
異なるランダムなシードでモデルをトレーニングし、トレーニングを通じてさまざまなメトリクスを計算します。
次に、結果のメトリクス列に隠れマルコフモデル(HMM)を適合させる。
我々はHMM表現を用いて相転移を研究し、収束を遅くする潜伏状態(detour state)を特定する。
論文 参考訳(メタデータ) (2023-08-18T13:20:08Z) - Towards Foundation Models for Scientific Machine Learning:
Characterizing Scaling and Transfer Behavior [32.74388989649232]
我々は、科学機械学習(SciML)の応用において、事前学習をどのように利用できるかを研究する。
これらのモデルを微調整すると、モデルのサイズが大きくなるにつれてパフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2023-06-01T00:32:59Z) - Stabilizing Machine Learning Prediction of Dynamics: Noise and
Noise-inspired Regularization [58.720142291102135]
近年、機械学習(ML)モデルはカオス力学系の力学を正確に予測するために訓練可能であることが示されている。
緩和技術がなければ、この技術は人工的に迅速にエラーを発生させ、不正確な予測と/または気候不安定をもたらす可能性がある。
トレーニング中にモデル入力に付加される多数の独立雑音実効化の効果を決定論的に近似する正規化手法であるLinearized Multi-Noise Training (LMNT)を導入する。
論文 参考訳(メタデータ) (2022-11-09T23:40:52Z) - On the Influence of Enforcing Model Identifiability on Learning dynamics
of Gaussian Mixture Models [14.759688428864159]
特異モデルからサブモデルを抽出する手法を提案する。
本手法はトレーニング中のモデルの識別性を強制する。
この手法がディープニューラルネットワークのようなより複雑なモデルにどのように適用できるかを示す。
論文 参考訳(メタデータ) (2022-06-17T07:50:22Z) - Bayesian Active Learning for Discrete Latent Variable Models [19.852463786440122]
アクティブラーニングは、モデルのパラメータに適合するために必要なデータ量を削減しようとする。
潜在変数モデルは神経科学、心理学、その他の様々な工学、科学分野において重要な役割を果たす。
論文 参考訳(メタデータ) (2022-02-27T19:07:12Z) - EINNs: Epidemiologically-Informed Neural Networks [75.34199997857341]
本稿では,疫病予測のための新しい物理インフォームドニューラルネットワークEINNを紹介する。
メカニスティックモデルによって提供される理論的柔軟性と、AIモデルによって提供されるデータ駆動表現性の両方を活用する方法について検討する。
論文 参考訳(メタデータ) (2022-02-21T18:59:03Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Data Rejuvenation: Exploiting Inactive Training Examples for Neural
Machine Translation [86.40610684026262]
本研究では,モデルの性能に寄与しない非アクティブなトレーニング例を特定する。
非アクティブな例を利用して大規模なデータセット上でのNMTモデルのトレーニングを改善するために、データ再構成を導入する。
WMT14の英語・ドイツ語・英語・フランス語データセットによる実験結果から,提案したデータ再生は一貫して,いくつかの強力なNMTモデルの性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2020-10-06T08:57:31Z) - Transfer Learning without Knowing: Reprogramming Black-box Machine
Learning Models with Scarce Data and Limited Resources [78.72922528736011]
そこで我々は,ブラックボックス・アタベラル・リプログラミング (BAR) という新しい手法を提案する。
ゼロオーダー最適化とマルチラベルマッピング技術を用いて、BARは入力出力応答のみに基づいてブラックボックスMLモデルをプログラムする。
BARは最先端の手法より優れ、バニラ対逆プログラミング法に匹敵する性能を得る。
論文 参考訳(メタデータ) (2020-07-17T01:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。