論文の概要: Asymmetric Conflict and Synergy in Post-training for LLM-based Multilingual Machine Translation
- arxiv url: http://arxiv.org/abs/2502.11223v1
- Date: Sun, 16 Feb 2025 18:06:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:12:48.776907
- Title: Asymmetric Conflict and Synergy in Post-training for LLM-based Multilingual Machine Translation
- Title(参考訳): LLMに基づく多言語機械翻訳のためのポストトレーニングにおける非対称衝突と相乗効果
- Authors: Tong Zheng, Yan Wen, Huiwen Bao, Junfeng Guo, Heng Huang,
- Abstract要約: 訓練後のCoMのメカニズムである言語対立と相乗効果を解析した。
本稿では,言語対立や相乗効果の非対称性に対処するために,方向対応学習アプローチとグループワイドモデルマージの組み合わせを提案する。
X-ALMA-13B-Pretrain-trained with multilingual pre-training- achieved performance to XALMA-13B (only SFT)
- 参考スコア(独自算出の注目度): 48.14410872666802
- License:
- Abstract: The emergence of Large Language Models (LLMs) has advanced the multilingual machine translation (MMT), yet the Curse of Multilinguality (CoM) remains a major challenge. Existing work in LLM-based MMT typically mitigates this issue via scaling up training and computation budget, which raises a critical question: Is scaling up the training and computation budget truly necessary for high-quality MMT, or can a deeper understanding of CoM provide a more efficient solution? To explore this problem, we analyze the linguistic conflicts and synergy, the underlying mechanism of CoM during post-training phase. We identify an asymmetric phenomenon in linguistic conflicts and synergy: the dominance of conflicts and synergy varies in different translation directions, leading to sub-optimal adaptation in existing post-training methods. We further find that a significant bottleneck in MMT appears to lie in post-training rather than multilingual pre-training, suggesting the need for more effective adaptation strategies. Building on these new insights, we propose a direction-aware training approach, combined with group-wise model merging, to address asymmetry in linguistic conflicts and synergy explicitly. Leveraging this strategy, our method fine-tunes X-ALMA-13B-Pretrain-trained only with multilingual pre-training-achieving comparable performance to XALMA-13B (only SFT) while using only 20B pretraining tokens and 17B parameters-5.5x fewer pretraining-tokens and 1.7x fewer model size-with just 0.85 COMET drop on Flores-200 testsets of 50 languages.
- Abstract(参考訳): LLM(Large Language Models)の出現は多言語機械翻訳(MMT)を進歩させたが、CoM(Curse of Multilinguality)は依然として大きな課題である。
LLMベースのMMTの既存の作業は、トレーニングと計算予算のスケールアップを通じてこの問題を緩和するのが一般的である。
この問題を探るため,訓練後のCoMの基盤となる言語的対立と相乗効果を分析した。
コンフリクトとシナジーの優位性は、翻訳方向によって異なるため、既存のポストトレーニング手法に準最適適応をもたらす。
さらに,MMTにおける重要なボトルネックは,多言語事前学習よりもポストトレーニングにあることが示唆され,より効果的な適応戦略の必要性が示唆された。
これらの新たな知見に基づいて,言語対立や相乗効果の非対称性に対処するため,集団モデル統合と組み合わせた方向対応学習手法を提案する。
この戦略を利用すると、X-ALMA-13B-Pretrain-trainedはXALMA-13B(SFTのみ)に匹敵する性能を持つだけで、20Bの事前トレーニングトークンと17Bのパラメータを5.5倍少なく、モデルサイズが1.7倍小さい。
関連論文リスト
- Optimizing Low-Resource Language Model Training: Comprehensive Analysis of Multi-Epoch, Multi-Lingual, and Two-Stage Approaches [3.809045695573932]
既存の作業では、制限対象の言語コーパスを効率的に活用するために、マルチエポック、多言語、二段階の訓練が採用されている。
我々は、これらの3つのアプローチを組み合わせて、低リソース言語LLMのトレーニング設定を徹底的に検討する。
対象言語コーパスの量が減少するにつれて、最適トレーニングアプローチは、単言語単段階訓練から、計算予算依存しきい値における多言語二段階訓練へと移行する。
論文 参考訳(メタデータ) (2024-10-16T07:45:56Z) - X-ALMA: Plug & Play Modules and Adaptive Rejection for Quality Translation at Scale [25.257770733168012]
大規模言語モデル(LLM)は、様々なNLPタスクで顕著な成功を収めてきたが、主に英語に焦点を当てている。
本稿では,多言語機械翻訳タスクに着目し,言語数よりも品質を優先する。
X-ALMAは、リソースレベルに関係なく、50の異なる言語で最高のパフォーマンスを保証することを約束するモデルである。
論文 参考訳(メタデータ) (2024-10-04T03:17:27Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。
より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:56:10Z) - Bridging the Gap between Language Models and Cross-Lingual Sequence
Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。
大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。
本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。
第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文 参考訳(メタデータ) (2022-04-11T15:55:20Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Cross-lingual Transferring of Pre-trained Contextualized Language Models [73.97131976850424]
本稿では,PRLMのための新しい言語間モデル転送フレームワークTreLMを提案する。
シンボルの順序と言語間のシーケンス長の差に対処するため,中間的なTRILayer構造を提案する。
提案手法は,スクラッチから学習した言語モデルに対して,性能と効率の両面で,限られたデータで著しく優れることを示す。
論文 参考訳(メタデータ) (2021-07-27T06:51:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。