論文の概要: Why do Large Language Models Fail in Low-resource Translation? Unraveling the Token Dynamics of Large Language Models for Machine Translation
- arxiv url: http://arxiv.org/abs/2605.07533v1
- Date: Fri, 08 May 2026 10:05:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.983274
- Title: Why do Large Language Models Fail in Low-resource Translation? Unraveling the Token Dynamics of Large Language Models for Machine Translation
- Title(参考訳): 低リソース翻訳において大言語モデルはなぜ機能しないのか? 機械翻訳のための大言語モデルのトーケンダイナミクスを解明する
- Authors: Shenbin Qian, Yves Scherrer,
- Abstract要約: 機械翻訳(MT)における大規模言語モデル(LLM)の故障モードを系統的に解析する。
非英語中心のLPは、英語中心のペアよりもCOMETスコアが低いことが分かりました。
LLMの推論は低TAR言語への変換時により多くのトークンを生成する傾向があり、補償機構が示唆される。
- 参考スコア(独自算出の注目度): 4.506808028203914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have recently demonstrated strong performance in machine translation (MT). However, most prior work focuses on improving or benchmarking translation quality, offering limited insight into when and why LLM-based translation fails. In this work, we systematically analyze failure modes of LLMs in MT by evaluating 15 models, including four reasoning LLMs, across 22 language pairs (LPs) with varying resource levels. We find that non-English-centric LPs consistently yield lower COMET scores than English-centric pairs. To investigate the underlying causes, we introduce Token Activation Rate (TAR), a metric that captures how effectively a model utilizes language-specific tokens in its vocabulary during generation. We validate TAR as a proxy for language representation using models with known language distributions in the training data, and show that lower TAR is strongly associated with poorer translation performance. Furthermore, reasoning LLMs tend to generate more tokens when translating into low-TAR languages, suggesting a compensatory mechanism, although its impact on translation quality varies across models. Overall, our findings emphasize the importance of token-level dynamics in understanding MT performance of LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最近、機械翻訳(MT)において強力な性能を示した。
しかしながら、これまでのほとんどの研究は翻訳品質の改善やベンチマークに重点を置いており、LLMベースの翻訳がいつ、なぜ失敗するのかについての知見が限られている。
本研究では,資源レベルの異なる22の言語対 (LP) にまたがる4つの LLM を含む15のモデルを評価することにより,MT における LLM の故障モードを系統的に解析する。
非英語中心のLPは、英語中心のペアよりもCOMETスコアが低いことが分かりました。
そこで本研究では,モデルが生成中の語彙における言語固有のトークンをいかに効果的に活用するかを計測する指標として,Token Activation Rate (TAR)を紹介した。
トレーニングデータ中の既知の言語分布を持つモデルを用いて,TARを言語表現のプロキシとして検証し,下位のTARが翻訳性能の低下と強く関連していることを示す。
さらに、LLMは低TAR言語に翻訳する際により多くのトークンを生成する傾向があり、その変換品質への影響はモデルによって異なるが、補償機構が示唆される。
本研究は, LLMのMT性能を理解する上で, トークンレベルダイナミクスの重要性を強調した。
関連論文リスト
- Bridging the Linguistic Divide: A Survey on Leveraging Large Language Models for Machine Translation [33.08089616645845]
大言語モデル(LLM)は機械翻訳(MT)のランドスケープを再構築した
我々は,数発のプロンプト,言語間移動,パラメータ効率の微調整などの手法を解析する。
幻覚、評価の不整合、遺伝バイアスなど、永続的な課題について議論する。
論文 参考訳(メタデータ) (2025-04-02T17:26:40Z) - What do Large Language Models Need for Machine Translation Evaluation? [12.42394213466485]
大規模言語モデル(LLM)は、微調整された多言語事前訓練言語モデルに匹敵する結果が得られる。
本稿では,LLMの機械翻訳品質を評価するために,ソース,参照,翻訳エラー,ガイドラインなどの翻訳情報が必要であるかを検討する。
論文 参考訳(メタデータ) (2024-10-04T09:50:45Z) - Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation [62.202893186343935]
低リソース言語に大規模言語モデルを適用するのに何が必要かについて検討する。
我々は、事前トレーニングとスーパーバイザードファインチューニング(SFT)の間に並列データが重要であることを示す。
2つの低リソース言語群にまたがる3つの LLM 実験により,本研究の一般化可能性を示す一貫した傾向が示された。
論文 参考訳(メタデータ) (2024-08-23T00:59:38Z) - TEaR: Improving LLM-based Machine Translation with Systematic Self-Refinement [26.26493253161022]
大規模言語モデル(LLM)は機械翻訳(MT)において印象的な結果を得た
我々は,体系的LLMに基づく自己精製翻訳フレームワーク,textbfTEaRを紹介する。
論文 参考訳(メタデータ) (2024-02-26T07:58:12Z) - Adapting Large Language Models for Document-Level Machine Translation [46.370862171452444]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを大幅に進歩させた。
近年の研究では、中程度のLLMはタスク固有の微調整後、より大きなLLMよりも優れていることが示されている。
本研究では,特定の言語対に対する文書レベルの機械翻訳(DocMT)にLLMを適用することに焦点を当てた。
論文 参考訳(メタデータ) (2024-01-12T09:29:13Z) - Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。