Fugu-MT 論文翻訳(概要): Why do Large Language Models Fail in Low-resource Translation? Unraveling the Token Dynamics of Large Language Models for Machine Translation

論文の概要: Why do Large Language Models Fail in Low-resource Translation? Unraveling the Token Dynamics of Large Language Models for Machine Translation

arxiv url: http://arxiv.org/abs/2605.07533v1
Date: Fri, 08 May 2026 10:05:41 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-11 19:43:38.983274
Title: Why do Large Language Models Fail in Low-resource Translation? Unraveling the Token Dynamics of Large Language Models for Machine Translation
Title（参考訳）: 低リソース翻訳において大言語モデルはなぜ機能しないのか? 機械翻訳のための大言語モデルのトーケンダイナミクスを解明する
Authors: Shenbin Qian, Yves Scherrer,
Abstract要約: 機械翻訳(MT)における大規模言語モデル(LLM)の故障モードを系統的に解析する。非英語中心のLPは、英語中心のペアよりもCOMETスコアが低いことが分かりました。 LLMの推論は低TAR言語への変換時により多くのトークンを生成する傾向があり、補償機構が示唆される。
参考スコア（独自算出の注目度）: 4.506808028203914
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have recently demonstrated strong performance in machine translation (MT). However, most prior work focuses on improving or benchmarking translation quality, offering limited insight into when and why LLM-based translation fails. In this work, we systematically analyze failure modes of LLMs in MT by evaluating 15 models, including four reasoning LLMs, across 22 language pairs (LPs) with varying resource levels. We find that non-English-centric LPs consistently yield lower COMET scores than English-centric pairs. To investigate the underlying causes, we introduce Token Activation Rate (TAR), a metric that captures how effectively a model utilizes language-specific tokens in its vocabulary during generation. We validate TAR as a proxy for language representation using models with known language distributions in the training data, and show that lower TAR is strongly associated with poorer translation performance. Furthermore, reasoning LLMs tend to generate more tokens when translating into low-TAR languages, suggesting a compensatory mechanism, although its impact on translation quality varies across models. Overall, our findings emphasize the importance of token-level dynamics in understanding MT performance of LLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)は、最近、機械翻訳(MT)において強力な性能を示した。しかしながら、これまでのほとんどの研究は翻訳品質の改善やベンチマークに重点を置いており、LLMベースの翻訳がいつ、なぜ失敗するのかについての知見が限られている。本研究では,資源レベルの異なる22の言語対 (LP) にまたがる4つの LLM を含む15のモデルを評価することにより,MT における LLM の故障モードを系統的に解析する。非英語中心のLPは、英語中心のペアよりもCOMETスコアが低いことが分かりました。そこで本研究では,モデルが生成中の語彙における言語固有のトークンをいかに効果的に活用するかを計測する指標として,Token Activation Rate (TAR)を紹介した。トレーニングデータ中の既知の言語分布を持つモデルを用いて,TARを言語表現のプロキシとして検証し,下位のTARが翻訳性能の低下と強く関連していることを示す。さらに、LLMは低TAR言語に翻訳する際により多くのトークンを生成する傾向があり、その変換品質への影響はモデルによって異なるが、補償機構が示唆される。本研究は, LLMのMT性能を理解する上で, トークンレベルダイナミクスの重要性を強調した。

論文の概要: Why do Large Language Models Fail in Low-resource Translation? Unraveling the Token Dynamics of Large Language Models for Machine Translation

関連論文リスト