論文の概要: Test-Time Scaling of Reasoning Models for Machine Translation
- arxiv url: http://arxiv.org/abs/2510.06471v1
- Date: Tue, 07 Oct 2025 21:15:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.204356
- Title: Test-Time Scaling of Reasoning Models for Machine Translation
- Title(参考訳): 機械翻訳のための推論モデルの試験時間スケーリング
- Authors: Zihao Li, Shaoxiong Ji, Jörg Tiedemann,
- Abstract要約: テスト時間スケーリング(TTS)は、数学やコーディングといった様々なタスクにおける推論モデル(RM)の性能を向上させる。
本稿では,推論時間の増大により翻訳品質が向上するかどうかを考察する。
- 参考スコア(独自算出の注目度): 16.317481079574065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time scaling (TTS) has enhanced the performance of Reasoning Models (RMs) on various tasks such as math and coding, yet its efficacy in machine translation (MT) remains underexplored. This paper investigates whether increased inference-time computation improves translation quality. We evaluate 12 RMs across a diverse suite of MT benchmarks spanning multiple domains, examining three scenarios: direct translation, forced-reasoning extrapolation, and post-editing. Our findings show that for general-purpose RMs, TTS provides limited and inconsistent benefits for direct translation, with performance quickly plateauing. However, the effectiveness of TTS is unlocked by domain-specific fine-tuning, which aligns a model's reasoning process with task requirements, leading to consistent improvements up to an optimal, self-determined reasoning depth. We also find that forcing a model to reason beyond its natural stopping point consistently degrades translation quality. In contrast, TTS proves highly effective in a post-editing context, reliably turning self-correction into a beneficial process. These results indicate that the value of inference-time computation in MT lies not in enhancing single-pass translation with general models, but in targeted applications like multi-step, self-correction workflows and in conjunction with task-specialized models.
- Abstract(参考訳): テストタイムスケーリング(TTS)は、数学やコーディングなど様々なタスクにおける推論モデル(RM)の性能を向上させるが、機械翻訳(MT)における有効性は未定である。
本稿では,推論時間の増大により翻訳品質が向上するかどうかを考察する。
我々は、複数のドメインにまたがる様々なMTベンチマークスイートの12のRMを評価し、直接翻訳、強制推論外挿、後編集の3つのシナリオを調査した。
以上の結果から,汎用RMでは,RTSは直接翻訳に限定的かつ一貫性のない利点をもたらし,性能は急速に低下した。
しかし、TSの有効性はドメイン固有の微調整によって解かれ、これはモデルの推論プロセスとタスク要求を一致させ、最適で自己決定的な推論深度まで一貫した改善をもたらす。
また、モデルに自然停止点を超えた推論を強制することは、翻訳品質を継続的に低下させる。
対照的に、TSは編集後の文脈で非常に効果的であることが証明され、自己補正を有益なプロセスに確実に変換する。
これらの結果は、MTにおける推論時間計算の価値は、一般的なモデルによるシングルパス変換の強化ではなく、マルチステップ、自己補正ワークフロー、タスク特化モデルなどのターゲットアプリケーションにあることを示している。
関連論文リスト
- Think Right, Not More: Test-Time Scaling for Numerical Claim Verification [14.07771397213171]
テスト時間計算は複雑な数値的なクレームの検証に有効であることを示す。
クレームの認識複雑性に基づいてTTSを選択的に実行する適応機構を提案する。
このアプローチは標準のTSよりも1.8倍高い効率を実現し、シングルショットクレーム検証法よりも18.8%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-09-26T09:23:35Z) - TranslationCorrect: A Unified Framework for Machine Translation Post-Editing with Predictive Error Assistance [5.306276499628096]
機械翻訳(MT)後編集と研究データ収集は、しばしば非効率な翻訳に頼っている。
本稿ではこれらのタスクを合理化するための統合フレームワークであるTranslationCorrectを紹介する。
NLLBのようなモデルを使ったMT生成、XCOMETやLLM APIのようなモデルを使った自動エラー予測(詳細な推論を提供する)、単一環境における直感的な後編集インターフェースを組み合わせたものだ。
論文 参考訳(メタデータ) (2025-06-23T06:38:49Z) - Context-Aware Machine Translation with Source Coreference Explanation [26.336947440529713]
本稿では,入力中のコア参照の特徴を予測し,翻訳のための意思決定を説明するモデルを提案する。
我々は、WMT文書レベルの翻訳タスクにおいて、英語-ドイツ語データセット、英語-ロシア語データセット、多言語TEDトークデータセットの評価を行った。
論文 参考訳(メタデータ) (2024-04-30T12:41:00Z) - Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。
より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:56:10Z) - Optimizing Non-Autoregressive Transformers with Contrastive Learning [74.46714706658517]
非自己回帰変換器(NAT)は、逐次順序ではなく全ての単語を同時に予測することにより、自動回帰変換器(AT)の推論遅延を低減する。
本稿では,データ分布ではなく,モデル分布からのサンプリングによるモダリティ学習の容易化を提案する。
論文 参考訳(メタデータ) (2023-05-23T04:20:13Z) - Non-Autoregressive Document-Level Machine Translation [35.48195990457836]
非自己回帰翻訳(NAT)モデルは、自己回帰翻訳(AT)モデルと比較して、同等の性能と優れた速度を達成する。
しかし、それらの能力は文書レベルの機械翻訳(MT)では探索されていない。
本稿では,ソースとターゲット間の文アライメントの簡易かつ効果的な設計を提案する。
論文 参考訳(メタデータ) (2023-05-22T09:59:59Z) - Candidate Soups: Fusing Candidate Results Improves Translation Quality
for Non-Autoregressive Translation [15.332496335303189]
非自己回帰翻訳(NAT)モデルは、自己回帰翻訳(AT)モデルよりもはるかに高速な推論速度を達成する。
既存のNATメソッドはNATモデルの性能改善にのみフォーカスするが、完全には利用しない。
そこで我々は,高品質な翻訳を実現するための,シンプルだが効果的な手法"Candidate Soups"を提案する。
論文 参考訳(メタデータ) (2023-01-27T02:39:42Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。