論文の概要: Towards Inducing Document-Level Abilities in Standard Multilingual Neural Machine Translation Models
- arxiv url: http://arxiv.org/abs/2408.11382v2
- Date: Thu, 17 Oct 2024 14:59:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 06:11:36.243509
- Title: Towards Inducing Document-Level Abilities in Standard Multilingual Neural Machine Translation Models
- Title(参考訳): 標準多言語ニューラルマシン翻訳モデルにおける文書レベル能力の導入に向けて
- Authors: Varun Gumma, Pranjal A. Chitale, Kalika Bali,
- Abstract要約: この研究は、訓練済みのNMTモデルを絶対正弦波のPEから相対的なPEに移行するという課題に対処する。
パラメータ効率のよい微調整は,少量の高品質なデータしか利用せず,この遷移をうまく促進できることを示す。
いくつかの言語における少量の長文データが、言語間長の一般化に十分であることがわかった。
- 参考スコア(独自算出の注目度): 4.625277907331917
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Neural Machine Translation (NMT) models have traditionally used Sinusoidal Positional Embeddings (PEs), which often struggle to capture long-range dependencies and are less efficient for handling extended context or document-level translation tasks. This work addresses the challenge of transitioning pre-trained NMT models from absolute sinusoidal PEs to relative PEs, such as Rotary Positional Embeddings (ROPE) and Attention with Linear Biases (ALIBI), without compromising performance. We demonstrate that parameter-efficient fine-tuning, using only a small amount of high-quality data, can successfully facilitate this transition. Experimental results indicate that switching from sinusoidal to relative PEs results in competitive translation quality on sentence-level evaluation benchmarks. Additionally, models trained with ROPE consistently outperform those using ALIBI and Sinusoidal PEs on document-level benchmarks across both string-based metrics and qualitative evaluations. Moreover, we find that a small amount of long-context data in a few languages is sufficient for cross-lingual length generalization, thereby inducing long-context capabilities.
- Abstract(参考訳): ニューラル機械翻訳(NMT)モデルは伝統的に、長い範囲の依存関係を捉えるのに苦慮し、拡張コンテキストや文書レベルの翻訳タスクの処理にあまり効率が良くない正弦波位置埋め込み(PE)を使用してきた。
本研究は, 絶対正弦波PEからロータリー位置埋め込み (ROPE) やアテンション・ウィズ・リニアバイアス (ALIBI) などの相対PEへ, 性能を損なうことなく, 事前学習したNMTモデルを移行するという課題に対処する。
パラメータ効率のよい微調整は,少量の高品質なデータしか利用せず,この遷移をうまく促進できることを示す。
実験結果から,正弦波から相対的なPEへの切り替えにより,文レベル評価ベンチマークの翻訳品質が向上することが示唆された。
さらに、ROPEでトレーニングされたモデルは、文字列ベースのメトリクスと定性評価の両方にわたる文書レベルのベンチマークにおいて、ALIBIとSinusoidal PEを使用したモデルよりも一貫して優れている。
さらに,少数の言語における少量の長文データが,言語間長の一般化に十分であることがわかった。
関連論文リスト
- P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。
以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。
我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Importance-Aware Data Augmentation for Document-Level Neural Machine
Translation [51.74178767827934]
ドキュメントレベルのニューラルマシン翻訳(DocNMT)は、一貫性と結合性の両方を持つ翻訳を生成することを目的としている。
長い入力長とトレーニングデータの可用性が限られているため、DocNMTはデータスパシティーの課題に直面していることが多い。
本稿では,隠れ状態のノルムとトレーニング勾配から推定したトークン重要度情報に基づいてトレーニングデータを拡張するDocNMTのための新しいIADAアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-27T09:27:47Z) - Semi-supervised Neural Machine Translation with Consistency
Regularization for Low-Resource Languages [3.475371300689165]
本稿では,高品質な文ペアを増補し,半教師付き方式でNMTモデルを訓練することにより,低リソース言語の問題に対処する,シンプルかつ効果的な手法を提案する。
具体的には、教師あり学習におけるクロスエントロピー損失と、疑似および拡張的対象文が与えられた教師なしのファッションにおけるKLディバージェンスを組み合わせる。
実験の結果,提案手法はNMTベースライン,特に0.46-2.03BLEUスコアを持つ低リソースデータセットにおいて,NMTベースラインを大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-04-02T15:24:08Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - Minimum Bayes Risk Decoding with Neural Metrics of Translation Quality [16.838064121696274]
この作業は、翻訳品質の多様な自動メトリクスを最適化するために、最小ベイズリスクデコーディングを適用します。
実験により、神経翻訳モデルと神経基準に基づく計量であるBLEURTを組み合わせることで、自動評価と人的評価が大幅に改善されることが示されている。
論文 参考訳(メタデータ) (2021-11-17T20:48:02Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Long-Short Term Masking Transformer: A Simple but Effective Baseline for
Document-level Neural Machine Translation [28.94748226472447]
文書レベルの翻訳における標準変換器の長所と短所について検討する。
本稿では,標準変圧器上での自己注意を隠蔽する,驚くほど単純な長短項マスクを提案する。
BLEUの強い結果が得られ、談話現象を捉えることができる。
論文 参考訳(メタデータ) (2020-09-19T00:29:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。