論文の概要: On Long-Tailed Phenomena in Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2010.04924v1
- Date: Sat, 10 Oct 2020 07:00:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 22:19:41.702900
- Title: On Long-Tailed Phenomena in Neural Machine Translation
- Title(参考訳): ニューラルネットワーク翻訳における長手現象について
- Authors: Vikas Raunak, Siddharth Dalmia, Vivek Gupta and Florian Metze
- Abstract要約: 最先端のニューラルネットワーク翻訳(NMT)モデルは、低周波トークンの生成に苦労する。
条件付きテキスト生成における構造的依存関係にモデルトレーニングを適応させるために,新たな損失関数である反焦点損失を提案する。
提案手法は,複数の機械翻訳(MT)データセットに対して有効であり,クロスエントロピーよりも顕著に向上することを示す。
- 参考スコア(独自算出の注目度): 50.65273145888896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art Neural Machine Translation (NMT) models struggle with
generating low-frequency tokens, tackling which remains a major challenge. The
analysis of long-tailed phenomena in the context of structured prediction tasks
is further hindered by the added complexities of search during inference. In
this work, we quantitatively characterize such long-tailed phenomena at two
levels of abstraction, namely, token classification and sequence generation. We
propose a new loss function, the Anti-Focal loss, to better adapt model
training to the structural dependencies of conditional text generation by
incorporating the inductive biases of beam search in the training process. We
show the efficacy of the proposed technique on a number of Machine Translation
(MT) datasets, demonstrating that it leads to significant gains over
cross-entropy across different language pairs, especially on the generation of
low-frequency words. We have released the code to reproduce our results.
- Abstract(参考訳): 最先端のニューラルネットワーク翻訳(NMT)モデルは、低周波トークンの生成に苦慮している。
構造予測タスクの文脈における長い尾の現象の解析は、推論中の探索の複雑さの追加によってさらに妨げられる。
本研究では,これらのロングテール現象を,トークン分類とシーケンス生成という2つの抽象化レベルで定量的に特徴付ける。
本稿では,ビーム探索の帰納バイアスをトレーニングプロセスに組み込むことで,条件付きテキスト生成の構造的依存関係にモデルトレーニングを適応させる新しい損失関数である反焦点損失を提案する。
提案手法が複数の機械翻訳(MT)データセット上で有効であることを示し、特に低周波単語の生成において、異なる言語対間でのクロスエントロピーが顕著に向上することを示した。
結果を再現するためのコードをリリースしました。
関連論文リスト
- A Percolation Model of Emergence: Analyzing Transformers Trained on a Formal Language [15.929767234646631]
データ、サイズ、計算量の増加は、ニューラルネットワークによる特定の能力の急激な学習につながる可能性がある。
エマージェンス(emergence)とは、しばしば「エマージェンス(emergence)」と呼ばれる現象である。
論文 参考訳(メタデータ) (2024-08-22T17:44:22Z) - Understanding and Addressing the Under-Translation Problem from the Perspective of Decoding Objective [72.83966378613238]
最新のニューラル・マシン・トランスレーション(NMT)システムでは、アンダー・トランスレーションとオーバー・トランスレーションの2つの課題が残っている。
我々は,NMTにおけるアンダートランスレーションの根本原因を詳細に分析し,デコード目的の観点から解説する。
本研究は,低翻訳の検知器としてEOS(End Of Sentence)予測の信頼性を活用し,低翻訳のリスクが高い候補を罰する信頼性に基づくペナルティを強化することを提案する。
論文 参考訳(メタデータ) (2024-05-29T09:25:49Z) - Repetition In Repetition Out: Towards Understanding Neural Text
Degeneration from the Data Perspective [91.14291142262262]
この研究は、データの観点から、単純で基本的な説明を提示する。
予備調査では, 退化問題とトレーニングデータにおける反復の有無との間には強い相関関係がみられた。
実験の結果,訓練データにおける繰り返しのペナルティ化は,より大きなモデルサイズや命令のチューニングを考慮しても重要な課題であることがわかった。
論文 参考訳(メタデータ) (2023-10-16T09:35:42Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - Noisy UGC Translation at the Character Level: Revisiting Open-Vocabulary
Capabilities and Robustness of Char-Based Models [6.123324869194193]
本研究は,雑音の多いユーザ生成コンテンツ(UGC)を翻訳する文字ベースニューラルマシン翻訳の能力について検討する。
我々はまず,注釈付きデータセット上でのユーザ生成コンテンツ現象の翻訳性能に対する有害な影響について検討した。
このようなモデルでは、未知文字を扱えないことが示され、そのような文字に遭遇すると破滅的な翻訳失敗が起こる。
論文 参考訳(メタデータ) (2021-10-24T23:25:54Z) - Comparative Error Analysis in Neural and Finite-state Models for
Unsupervised Character-level Transduction [34.1177259741046]
2つのモデルクラスを並べて比較すると、同等のパフォーマンスを達成したとしても、異なるタイプのエラーが発生する傾向があります。
復号時における有限状態とシーケンス・ツー・シーケンスの組合せが、出力を定量的かつ質的にどう影響するかを考察する。
論文 参考訳(メタデータ) (2021-06-24T00:09:24Z) - Beyond Noise: Mitigating the Impact of Fine-grained Semantic Divergences
on Neural Machine Translation [14.645468999921961]
本研究は,トランスフォーマーモデルにおける様々な種類の細粒度セマンティックな違いの影響を解析する。
自然に発生する発散による劣化からNMTが回復するのに役立つ因子を用いた発散型NMTフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-31T16:15:35Z) - Enriching Non-Autoregressive Transformer with Syntactic and
SemanticStructures for Neural Machine Translation [54.864148836486166]
本稿では,言語の明示的な構文構造と意味構造を非自己回帰トランスフォーマーに組み込むことを提案する。
我々のモデルは、最先端の非自己回帰モデルと比較して翻訳品質を保ちながら、はるかに高速な速度を実現している。
論文 参考訳(メタデータ) (2021-01-22T04:12:17Z) - Sentence Boundary Augmentation For Neural Machine Translation Robustness [11.290581889247983]
文境界セグメンテーションが品質に最も大きな影響を与えることを示し、セグメンテーションの堅牢性を改善するための単純なデータ拡張戦略を開発する。
文境界セグメンテーションが品質に最も大きな影響を与えることを示し、セグメンテーションの堅牢性を改善するための単純なデータ拡張戦略を開発する。
論文 参考訳(メタデータ) (2020-10-21T16:44:48Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。