論文の概要: Reciprocal Supervised Learning Improves Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2012.02975v1
- Date: Sat, 5 Dec 2020 08:23:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-22 17:11:56.949102
- Title: Reciprocal Supervised Learning Improves Neural Machine Translation
- Title(参考訳): 相互監視型学習はニューラルマシン翻訳を改善する
- Authors: Minkai Xu, Mingxuan Wang, Zhouhan Lin, Hao Zhou, Weinan Zhang, Lei Li
- Abstract要約: Reciprocal-Supervised Learning (RSL)は、Reciprocal-Supervised Learning (RSL)という名前の単純かつ効果的なアプローチである。
従来の知識蒸留法とは異なり、RSLは、他の同等またはより弱いモデルを導入することで、1つのモデルの精度を高めることができる。
- 参考スコア(独自算出の注目度): 42.056956549339766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the recent success on image classification, self-training has only
achieved limited gains on structured prediction tasks such as neural machine
translation (NMT). This is mainly due to the compositionality of the target
space, where the far-away prediction hypotheses lead to the notorious
reinforced mistake problem. In this paper, we revisit the utilization of
multiple diverse models and present a simple yet effective approach named
Reciprocal-Supervised Learning (RSL). RSL first exploits individual models to
generate pseudo parallel data, and then cooperatively trains each model on the
combined synthetic corpus. RSL leverages the fact that different parameterized
models have different inductive biases, and better predictions can be made by
jointly exploiting the agreement among each other. Unlike the previous
knowledge distillation methods built upon a much stronger teacher, RSL is
capable of boosting the accuracy of one model by introducing other comparable
or even weaker models. RSL can also be viewed as a more efficient alternative
to ensemble. Extensive experiments demonstrate the superior performance of RSL
on several benchmarks with significant margins.
- Abstract(参考訳): 最近の画像分類の成功にもかかわらず、自己学習はニューラルマシン翻訳(NMT)のような構造化予測タスクにおいて限られた利益しか得られていない。
これは主に、遠方の予測仮説が悪名高い強化された誤り問題に繋がるターゲット空間の構成性に起因する。
本稿では,多種多様なモデルの利用を再考し,Reciprocal-Supervised Learning (RSL) というシンプルなアプローチを提案する。
rslはまず個々のモデルを利用して擬似並列データを生成し、次に合成コーパス上で協調的に各モデルを訓練する。
RSLは、異なるパラメータ化モデルが異なる帰納バイアスを持つという事実を活用し、合意を相互に活用することでより良い予測を行うことができる。
従来の知識蒸留法とは異なり、RSLは他の同等またはより弱いモデルを導入することで、1つのモデルの精度を高めることができる。
RSLはアンサンブルのより効率的な代替品と見なすこともできる。
大規模な実験は、有意なマージンを持ついくつかのベンチマークにおいて、RSLの優れた性能を示す。
関連論文リスト
- BEND: Bagging Deep Learning Training Based on Efficient Neural Network Diffusion [56.9358325168226]
BEND(Efficient Neural Network Diffusion)に基づくバッグング深層学習学習アルゴリズムを提案する。
我々のアプローチは単純だが効果的であり、まず複数のトレーニングされたモデルの重みとバイアスを入力として、オートエンコーダと潜伏拡散モデルを訓練する。
提案したBENDアルゴリズムは,元のトレーニングモデルと拡散モデルの両方の平均および中央値の精度を一貫して向上させることができる。
論文 参考訳(メタデータ) (2024-03-23T08:40:38Z) - Efficient Gaussian Process Model on Class-Imbalanced Datasets for
Generalized Zero-Shot Learning [37.00463358780726]
本稿では,潜在機能埋め込みを学習するニューラルネットワークモデルと,未確認クラスの潜在機能プロトタイプを予測するガウスプロセス(GP)回帰モデルを提案する。
我々のモデルは、クラス不均衡なトレーニングデータの影響を緩和する単純なトレーニング戦略により、効率的に訓練される。
論文 参考訳(メタデータ) (2022-10-11T04:57:20Z) - How robust are pre-trained models to distribution shift? [82.08946007821184]
自己教師付き学習(SSL)と自己エンコーダベースモデル(AE)の相互関係が相互関係に与える影響を示す。
本研究では, 線形ヘッドの潜在バイアスから事前学習したモデルの性能を分離するために, アウト・オブ・ディストリビューション(OOD)データに基づいて訓練された線形ヘッドを用いた新しい評価手法を開発した。
論文 参考訳(メタデータ) (2022-06-17T16:18:28Z) - From Distillation to Hard Negative Sampling: Making Sparse Neural IR
Models More Effective [15.542082655342476]
スパース拡張ベースのレトリバーであるSPLADEを使って構築し、密集したモデルと同じトレーニング改善の恩恵を受けることができるかを示します。
ドメイン内およびゼロショット設定における有効性と効率の関係について検討する。
論文 参考訳(メタデータ) (2022-05-10T08:08:43Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - A Data-driven feature selection and machine-learning model benchmark for
the prediction of longitudinal dispersion coefficient [29.58577229101903]
縦方向分散(LD)係数の正確な予測は、関連するシミュレーションにおいて性能の飛躍をもたらすことができる。
本研究では, 蒸留した局所最適値と代表MLモデルとの数値比較により, 大域的最適特徴集合を提案した。
その結果,サポートベクタマシンは他のモデルよりも大幅に性能が向上していることがわかった。
論文 参考訳(メタデータ) (2021-07-16T09:50:38Z) - Self-Damaging Contrastive Learning [92.34124578823977]
ラベルのないデータは一般に不均衡であり、長い尾の分布を示す。
本稿では,クラスを知らずに表現学習を自動的にバランスをとるための,自己学習コントラスト学習という原則的枠組みを提案する。
実験の結果,SDCLRは全体としての精度だけでなく,バランス性も著しく向上することがわかった。
論文 参考訳(メタデータ) (2021-06-06T00:04:49Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。