論文の概要: Mixed Cross Entropy Loss for Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2106.15880v1
- Date: Wed, 30 Jun 2021 08:15:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-01 15:37:33.778203
- Title: Mixed Cross Entropy Loss for Neural Machine Translation
- Title(参考訳): ニューラルネットワーク翻訳のための混合クロスエントロピー損失
- Authors: Haoran Li, Wei Lu
- Abstract要約: クロスエントロピー(Cross Entropy, CE)は、ニューラルネットワーク翻訳訓練における標準的な損失関数である。
いずれのトレーニングアプローチにおいても,CEの代替としてクロスエントロピー損失(混合CE)が提案される。
- 参考スコア(独自算出の注目度): 12.137734214412301
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In neural machine translation, cross entropy (CE) is the standard loss
function in two training methods of auto-regressive models, i.e., teacher
forcing and scheduled sampling. In this paper, we propose mixed cross entropy
loss (mixed CE) as a substitute for CE in both training approaches. In teacher
forcing, the model trained with CE regards the translation problem as a
one-to-one mapping process, while in mixed CE this process can be relaxed to
one-to-many. In scheduled sampling, we show that mixed CE has the potential to
encourage the training and testing behaviours to be similar to each other, more
effectively mitigating the exposure bias problem. We demonstrate the
superiority of mixed CE over CE on several machine translation datasets, WMT'16
Ro-En, WMT'16 Ru-En, and WMT'14 En-De in both teacher forcing and scheduled
sampling setups. Furthermore, in WMT'14 En-De, we also find mixed CE
consistently outperforms CE on a multi-reference set as well as a challenging
paraphrased reference set. We also found the model trained with mixed CE is
able to provide a better probability distribution defined over the translation
output space. Our code is available at https://github.com/haorannlp/mix.
- Abstract(参考訳): 神経機械翻訳において、クロスエントロピー(cross entropy、ce)は、教師の強制と定期的なサンプリングという2つの自動回帰モデルの訓練方法における標準的損失関数である。
本稿では,両訓練におけるceの代替として混合交叉エントロピー損失 (mixed ce) を提案する。
教師の強制では、CEで訓練されたモデルは翻訳問題を1対1のマッピングプロセスとみなし、CEの混合ではこのプロセスを1対1に緩和することができる。
スケジュールサンプリングでは,混合ceはトレーニングとテストの動作を互いに類似させる可能性を示し,より効果的に露出バイアス問題を緩和する。
本研究では,複数の機械翻訳データセットである wmt'16 ro-en, wmt'16 ru-en, wmt'14 en-de において,教師の強制と定期的なサンプリング設定の両方において,ce over ce が優れていることを示す。
さらに、WMT'14 En-Deでは、混合CEは複数の参照セット上でCEを一貫して上回り、また挑戦的なパラフレーズ参照セットも見出す。
また,混合ceで学習したモデルでは,翻訳出力空間上で定義された確率分布がより良くなることがわかった。
私たちのコードはhttps://github.com/haorannlp/mixで利用可能です。
関連論文リスト
- Adaptive Mix for Semi-Supervised Medical Image Segmentation [22.69909762038458]
本稿では,画像混合のための適応混合アルゴリズム(AdaMix)を提案する。
AdaMix-ST, AdaMix-MT, AdaMix-CTの3つのフレームワークを半教師付き医用画像分割用として開発した。
論文 参考訳(メタデータ) (2024-07-31T13:19:39Z) - Improving Non-autoregressive Machine Translation with Error Exposure and
Consistency Regularization [13.38986769508059]
Conditional Masked Language Model (CMLM) はマスク付き低信頼トークンを再予測するためにマスク予測パラダイムを採用する。
CMLMは、トレーニングと推論の間のデータ分散の相違に悩まされる。
トレーニング中のモデル予測に基づいて混合シーケンスを構築し,不完全な観測条件下でのマスクトークンの最適化を提案する。
論文 参考訳(メタデータ) (2024-02-15T05:35:04Z) - Twice Class Bias Correction for Imbalanced Semi-Supervised Learning [59.90429949214134]
textbfTwice textbfClass textbfBias textbfCorrection (textbfTCBC) と呼ばれる新しいアプローチを導入する。
トレーニング過程におけるモデルパラメータのクラスバイアスを推定する。
非ラベル標本に対してモデルの擬似ラベルに二次補正を適用する。
論文 参考訳(メタデータ) (2023-12-27T15:06:36Z) - Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。
より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:56:10Z) - Pre-training Language Model as a Multi-perspective Course Learner [103.17674402415582]
本研究では,サンプル効率のよい事前学習のためのマルチパースペクティブ・コース・ラーニング(MCL)手法を提案する。
本研究では,3つの自己超越コースが,「綱引き」力学の固有の欠陥を軽減するように設計されている。
本手法は,GLUEおよびSQuAD 2.0ベンチマークにおいて,ELECTRAの平均性能をそれぞれ2.8%,絶対点を3.2%向上させる。
論文 参考訳(メタデータ) (2023-05-06T09:02:10Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - Mismatching-Aware Unsupervised Translation Quality Estimation For
Low-Resource Languages [6.049660810617423]
XLMRScoreは、XLM-RoBERTa (XLMR)モデルで計算されたBERTScoreの言語間対応である。
WMT21QE共有タスクの4つの低リソース言語対に対して提案手法を評価する。
論文 参考訳(メタデータ) (2022-07-31T16:23:23Z) - Exploiting Curriculum Learning in Unsupervised Neural Machine
Translation [28.75229367700697]
複数の粒度から擬似バイテキストを徐々に活用するカリキュラム学習手法を提案する。
WMT 14 En-Fr, WMT 16 En-De, WMT 16 En-Ro, LDC En-Zh 翻訳タスクの実験結果から,提案手法はより高速な収束速度で一貫した改善を実現することが示された。
論文 参考訳(メタデータ) (2021-09-23T07:18:06Z) - Teacher-Student MixIT for Unsupervised and Semi-supervised Speech
Separation [27.19635746008699]
エンド・ツー・エンド音声分離のための新しい半教師付き学習フレームワークを提案する。
提案手法はまず,教師モデルを訓練するために,未分離音源と混合不変訓練基準の混合を用いる。
単一チャネルと複数チャネルの混合実験により,教師と学生の学習がオーバーセパレーションの問題を解決することを示した。
論文 参考訳(メタデータ) (2021-06-15T02:26:42Z) - ReMix: Towards Image-to-Image Translation with Limited Data [154.71724970593036]
本稿では,この問題に対処するためのデータ拡張手法(ReMix)を提案する。
特徴レベルでのトレーニングサンプルを補間し、サンプル間の知覚的関係に基づく新しいコンテンツ損失を提案します。
提案手法は, 生成のあいまいさを効果的に低減し, コンテンツ保存結果を生成する。
論文 参考訳(メタデータ) (2021-03-31T06:24:10Z) - Rethinking Importance Weighting for Deep Learning under Distribution
Shift [86.52964129830706]
トレーニングデータ分布がテストと異なる分散シフト(DS)では、DSを2つの別々のステップで処理する重要重み付け(IW)が強力なテクニックである。
本稿では、IWを再考し、それが円形依存に苦しむことを理論的に示す。
本稿では、WEとWCを反復し、それらをシームレスに組み合わせたエンドツーエンドの動的IWを提案する。
論文 参考訳(メタデータ) (2020-06-08T15:03:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。