Fugu-MT 論文翻訳(概要): On the Interchangeability of Positional Embeddings in Multilingual Neural Machine Translation Models

論文の概要: On the Interchangeability of Positional Embeddings in Multilingual Neural Machine Translation Models

arxiv url: http://arxiv.org/abs/2408.11382v1
Date: Wed, 21 Aug 2024 07:23:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-22 18:09:27.468141
Title: On the Interchangeability of Positional Embeddings in Multilingual Neural Machine Translation Models
Title（参考訳）: 多言語ニューラルマシン翻訳モデルにおける位置埋め込みの交換性について
Authors: Varun Gumma, Pranjal A. Chitale, Kalika Bali,
Abstract要約: 本研究では,NMTモデルの位置埋め込みを絶対正弦波PEからRoPEやALiBiなどの相対的アプローチに効率的に切り替える可能性を探る。以上の結果より, 副鼻腔PEをロPEとALiBiに置き換えることにより, 少ない品質データで微調整を行うことにより, 性能損失を低減できることがわかった。これらの相対的PEをスクラッチからトレーニングしたモデルでさえ、微調整されたモデルにわずかに劣り、我々の仮説の効率性と妥当性を裏付ける。
参考スコア（独自算出の注目度）: 4.625277907331917
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Standard Neural Machine Translation (NMT) models have traditionally been trained with Sinusoidal Positional Embeddings (PEs), which are inadequate for capturing long-range dependencies and are inefficient for long-context or document-level translation. In contrast, state-of-the-art large language models (LLMs) employ relative PEs, demonstrating superior length generalization. This work explores the potential for efficiently switching the Positional Embeddings of pre-trained NMT models from absolute sinusoidal PEs to relative approaches such as RoPE and ALiBi. Our findings reveal that sinusoidal PEs can be effectively replaced with RoPE and ALiBi with negligible or no performance loss, achieved by fine-tuning on a small fraction of high-quality data. Additionally, models trained without Positional Embeddings (NoPE) are not a viable solution for Encoder-Decoder architectures, as they consistently under-perform compared to models utilizing any form of Positional Embedding. Furthermore, even a model trained from scratch with these relative PEs slightly under-performs a fine-tuned model, underscoring the efficiency and validity of our hypothesis.
Abstract（参考訳）: 標準ニューラルネットワーク翻訳(NMT)モデルは伝統的に、長距離依存を捉えるのに不十分で、長文や文書レベルの翻訳には不効率な正弦波位置埋め込み(PE)を用いて訓練されてきた。対照的に、最先端の大規模言語モデル(LLM)は相対的なPEを採用し、より優れた長さの一般化を示す。本研究では,NMTモデルの位置埋め込みを絶対正弦波PEからRoPEやALiBiなどの相対的アプローチに効率的に切り替える可能性を探る。以上の結果より, 副鼻腔PEをロPEとALiBiに置き換えることにより, 少ない品質データで微調整を行うことにより, 性能損失を低減できることがわかった。さらに、位置埋め込み(NoPE)を使わずにトレーニングされたモデルは、エンコーダ・デコーダアーキテクチャーにとって実行可能なソリューションではない。さらに、これらの相対的なPEをスクラッチからトレーニングしたモデルでさえ、微調整されたモデルにわずかに劣り、仮説の有効性と妥当性を裏付ける。

関連論文リスト

Alleviating Distribution Shift in Synthetic Data for Machine Translation Quality Estimation [55.73341401764367]
本稿では,合成QEデータの分散シフトを緩和する新しいフレームワークであるADSQEを紹介する。 ADSQEは、参照、すなわち翻訳監督信号を使用して、生成プロセスとアノテーションプロセスの両方をガイドする。実験によると、ADSQEはCOMETのようなSOTAベースラインを教師なしと教師なしの両方で上回っている。
論文参考訳（メタデータ） (2025-02-27T10:11:53Z)
P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文参考訳（メタデータ） (2024-11-14T01:29:36Z)
Resonance RoPE: Improving Context Length Generalization of Large Language Models [37.749813693281254]
本稿では,ロータリー位置埋め込み(RoPE)を備えた大規模言語モデル(LLM)におけるTSTLシナリオの課題について述べる。本稿では,TSTLシナリオの一般化ギャップを狭めるための新しい手法であるResonance RoPEを紹介する。本稿では,TSTLシナリオの微粒化挙動解析に特化して設計された,新しい合成ベンチマークPosGenを提案する。
論文参考訳（メタデータ） (2024-02-29T19:02:03Z)
Importance-Aware Data Augmentation for Document-Level Neural Machine Translation [51.74178767827934]
ドキュメントレベルのニューラルマシン翻訳(DocNMT)は、一貫性と結合性の両方を持つ翻訳を生成することを目的としている。長い入力長とトレーニングデータの可用性が限られているため、DocNMTはデータスパシティーの課題に直面していることが多い。本稿では,隠れ状態のノルムとトレーニング勾配から推定したトークン重要度情報に基づいてトレーニングデータを拡張するDocNMTのための新しいIADAアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-01-27T09:27:47Z)
Semi-supervised Neural Machine Translation with Consistency Regularization for Low-Resource Languages [3.475371300689165]
本稿では,高品質な文ペアを増補し,半教師付き方式でNMTモデルを訓練することにより,低リソース言語の問題に対処する,シンプルかつ効果的な手法を提案する。具体的には、教師あり学習におけるクロスエントロピー損失と、疑似および拡張的対象文が与えられた教師なしのファッションにおけるKLディバージェンスを組み合わせる。実験の結果,提案手法はNMTベースライン,特に0.46-2.03BLEUスコアを持つ低リソースデータセットにおいて,NMTベースラインを大幅に改善することが示された。
論文参考訳（メタデータ） (2023-04-02T15:24:08Z)
A Unified Neural Network Model for Readability Assessment with Feature Projection and Length-Balanced Loss [17.213602354715956]
本稿では,可読性評価のための特徴投影と長さバランス損失を考慮したBERTモデルを提案する。本モデルは,2つの英語ベンチマークデータセットと1つの中国語教科書データセットを用いて,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-10-19T05:33:27Z)
Learning to Generalize to More: Continuous Semantic Augmentation for Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。 CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文参考訳（メタデータ） (2022-04-14T08:16:28Z)
Minimum Bayes Risk Decoding with Neural Metrics of Translation Quality [16.838064121696274]
この作業は、翻訳品質の多様な自動メトリクスを最適化するために、最小ベイズリスクデコーディングを適用します。実験により、神経翻訳モデルと神経基準に基づく計量であるBLEURTを組み合わせることで、自動評価と人的評価が大幅に改善されることが示されている。
論文参考訳（メタデータ） (2021-11-17T20:48:02Z)
Improving Multilingual Translation by Representation and Gradient Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文参考訳（メタデータ） (2021-09-10T10:52:21Z)
Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文参考訳（メタデータ） (2021-09-09T03:48:35Z)
Alternated Training with Synthetic and Authentic Data for Neural Machine Translation [49.35605028467887]
ニューラルマシン翻訳(NMT)のための合成および認証データを用いた交互トレーニングを提案する。従来の研究と比較して,ノイズの多い合成データによってNMTモデルのトレーニングが妨げられるのを防止するためのガイダンスとして,認証データを導入している。中国語・ドイツ語・英語の翻訳タスクの実験は、我々のアプローチがいくつかの強いベースラインにまたがって性能を向上させることを示している。
論文参考訳（メタデータ） (2021-06-16T07:13:16Z)
Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得たほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文参考訳（メタデータ） (2021-06-10T10:18:23Z)
Self-Training Sampling with Monolingual Data Uncertainty for Neural Machine Translation [98.83925811122795]
並列データを補完するために最も情報に富んだ単言語文を選択することでサンプリング手順を改善することを提案する。並列データから抽出したバイリンガル辞書を用いて単言語文の不確実性を計算した。大規模WMT英語$Rightarrow$Germanと英語$Rightarrow$ Chineseデータセットの実験結果から,提案手法の有効性が示された。
論文参考訳（メタデータ） (2021-06-02T05:01:36Z)
On Long-Tailed Phenomena in Neural Machine Translation [50.65273145888896]
最先端のニューラルネットワーク翻訳(NMT)モデルは、低周波トークンの生成に苦労する。条件付きテキスト生成における構造的依存関係にモデルトレーニングを適応させるために,新たな損失関数である反焦点損失を提案する。提案手法は,複数の機械翻訳(MT)データセットに対して有効であり,クロスエントロピーよりも顕著に向上することを示す。
論文参考訳（メタデータ） (2020-10-10T07:00:57Z)
Long-Short Term Masking Transformer: A Simple but Effective Baseline for Document-level Neural Machine Translation [28.94748226472447]
文書レベルの翻訳における標準変換器の長所と短所について検討する。本稿では,標準変圧器上での自己注意を隠蔽する,驚くほど単純な長短項マスクを提案する。 BLEUの強い結果が得られ、談話現象を捉えることができる。
論文参考訳（メタデータ） (2020-09-19T00:29:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。