論文の概要: Unlocking Reasoning Capability on Machine Translation in Large Language Models
- arxiv url: http://arxiv.org/abs/2602.14763v1
- Date: Mon, 16 Feb 2026 14:05:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.452263
- Title: Unlocking Reasoning Capability on Machine Translation in Large Language Models
- Title(参考訳): 大規模言語モデルにおける機械翻訳におけるアンロック推論能力
- Authors: Sara Rajaee, Sebastian Vincent, Alexandre Berard, Marzieh Fadaee, Kelly Marchisio, Tom Kocmi,
- Abstract要約: 推論指向の大規模言語モデル(RLM)は、明示的な中間推論を生成することにより、数学やコーディングといったタスクに強い利益をもたらす。
WMT24++ベンチマークを用いて,オープンおよびクローズドヘビー級のRCMを系統的に評価した。
明示的な推論を可能にすることは、言語やモデル間の翻訳品質を一貫して低下させる。
- 参考スコア(独自算出の注目度): 57.60641851466707
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning-oriented large language models (RLMs) achieve strong gains on tasks such as mathematics and coding by generating explicit intermediate reasoning. However, their impact on machine translation (MT) remains underexplored. We systematically evaluate several open- and closed-weights RLMs on the WMT24++ benchmark and find that enabling explicit reasoning consistently degrades translation quality across languages and models. Analysis reveals that MT reasoning traces are highly linear, lacking revision, self-correction and exploration of alternative translations, which limits their usefulness. Furthermore, injecting higher-quality reasoning traces from stronger models does not reliably improve weaker models' performance. To address this mismatch, we propose a structured reasoning framework tailored to translation, based on multi-step drafting, adequacy refinement, fluency improvement, and selective iterative revision. We curate a synthetic dataset of dynamic structured reasoning traces and post-train a large reasoning model on this data. Experiments show significant improvements over standard translation fine-tuning and injected generic reasoning baselines. Our findings demonstrate that reasoning must be task-structured to benefit MT.
- Abstract(参考訳): 推論指向の大規模言語モデル(RLM)は、明示的な中間推論を生成することにより、数学やコーディングといったタスクに強い利益をもたらす。
しかし、機械翻訳(MT)への影響は未解明のままである。
我々はWMT24++ベンチマークでいくつかのオープンおよびクローズドウェイト RLM を体系的に評価し、明示的な推論を可能にすることで言語やモデル間の翻訳品質が一貫して低下することを発見した。
解析の結果、MT推論トレースは高度に線形であり、リビジョン、自己補正、代替翻訳の探索が欠如していることが判明した。
さらに、より強いモデルから高品質な推論トレースを注入しても、より弱いモデルの性能は確実に向上しない。
このミスマッチに対処するため,多段階の草案作成,妥当性向上,頻度改善,選択的反復修正に基づく翻訳に適した構造化推論フレームワークを提案する。
我々は、動的構造化推論トレースの合成データセットをキュレートし、このデータ上で大きな推論モデルを構築した。
実験では、標準翻訳の微調整やジェネリック推論のベースラインの注入よりも大幅に改善された。
MTの利益を得るためには,推論はタスク構造化されなければならないことが本研究で確認された。
関連論文リスト
- Beyond Literal Mapping: Benchmarking and Improving Non-Literal Translation Evaluation [57.11989521509119]
本稿では,特殊なサブエージェントを起動するリフレクティブコアエージェントを中心に,エージェント翻訳評価フレームワークを提案する。
実験の結果、RATEの有効性が示され、現在の測定値と比較して少なくとも3.2メタスコアの改善が達成された。
論文 参考訳(メタデータ) (2026-01-12T09:03:42Z) - LLM Reasoning for Machine Translation: Synthetic Data Generation over Thinking Tokens [25.257363122413395]
シンキングトークン」は、LRMが機械翻訳をより良く実行するのに役立ちません。
合成CoT説明によるモデル微調整は、標準入力出力微調整よりは良くない。
以上の結果から,教師が目標翻訳を洗練したり,並列コーパスを拡張することは,CoTの説明を「思考」MTモデルに蒸留するよりも影響が大きいことが示唆された。
論文 参考訳(メタデータ) (2025-10-13T20:41:01Z) - Test-Time Scaling of Reasoning Models for Machine Translation [16.317481079574065]
テスト時間スケーリング(TTS)は、数学やコーディングといった様々なタスクにおける推論モデル(RM)の性能を向上させる。
本稿では,推論時間の増大により翻訳品質が向上するかどうかを考察する。
論文 参考訳(メタデータ) (2025-10-07T21:15:18Z) - mSCoRe: a $M$ultilingual and Scalable Benchmark for $S$kill-based $Co$mmonsense $Re$asoning [74.97363626515236]
textbfSkill ベースの textbfCommonsense textbfReasoning (textbfmSCoRe) のための textbfMultilingual と Scalable Benchmark を提案する。
本ベンチマークでは,LLMの推論能力を体系的に評価するための3つの重要な要素を取り入れた。
本研究は,多言語多言語一般と文化的共通点に直面する場合,そのような推論強化モデルの限界を明らかにするものである。
論文 参考訳(メタデータ) (2025-08-13T18:59:02Z) - LINGOLY-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation [1.2576388595811496]
自然言語を基盤とした挑戦的推論ベンチマークであるlingOLY-TOOを紹介する。
実言語で記述された推論問題をパーミュレートして、多数の質問のバリエーションを生成する。
実験と分析は、モデルが推論を回避し、事前の知識から回答できることを示している。
論文 参考訳(メタデータ) (2025-03-04T19:57:47Z) - Your Language Model May Think Too Rigidly: Achieving Reasoning Consistency with Symmetry-Enhanced Training [66.48331530995786]
我々は、文脈から有用な情報を抽出する能力を向上させるデータ中心のアプローチであるsyMmetry-ENhanceD (MEND) Data Augmentationを提案する。
推論連鎖の増大を強調する既存の手法とは異なり,本手法は知識抽出段階におけるモデルロバスト性を向上させる。
論理的および算術的推論タスクの実験は、MENDが様々なクエリのバリエーションで推論性能を向上させることを示している。
論文 参考訳(メタデータ) (2025-02-25T03:03:35Z) - Context-Aware Machine Translation with Source Coreference Explanation [26.336947440529713]
本稿では,入力中のコア参照の特徴を予測し,翻訳のための意思決定を説明するモデルを提案する。
我々は、WMT文書レベルの翻訳タスクにおいて、英語-ドイツ語データセット、英語-ロシア語データセット、多言語TEDトークデータセットの評価を行った。
論文 参考訳(メタデータ) (2024-04-30T12:41:00Z) - Evaluating and Improving the Coreference Capabilities of Machine
Translation Models [30.60934078720647]
機械翻訳は幅広い言語能力を必要とする。
現在のエンドツーエンドモデルは、バイリンガルコーパスで一致した文を観察することで暗黙的に学習することが期待されている。
論文 参考訳(メタデータ) (2023-02-16T18:16:09Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。