論文の概要: LLM Reasoning for Machine Translation: Synthetic Data Generation over Thinking Tokens
- arxiv url: http://arxiv.org/abs/2510.11919v1
- Date: Mon, 13 Oct 2025 20:41:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.090568
- Title: LLM Reasoning for Machine Translation: Synthetic Data Generation over Thinking Tokens
- Title(参考訳): 機械翻訳のためのLLM推論:思考トークンによる合成データ生成
- Authors: Armel Zebaze, Rachel Bawden, Benoît Sagot,
- Abstract要約: シンキングトークン」は、LRMが機械翻訳をより良く実行するのに役立ちません。
合成CoT説明によるモデル微調整は、標準入力出力微調整よりは良くない。
以上の結果から,教師が目標翻訳を洗練したり,並列コーパスを拡張することは,CoTの説明を「思考」MTモデルに蒸留するよりも影響が大きいことが示唆された。
- 参考スコア(独自算出の注目度): 25.257363122413395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models (LRMs) have led to new possibilities in terms of problem-solving, through the devising of a natural language thought process prior to answering a query. While their capabilities are well known across mathematics and coding tasks, their impact on the task of machine translation (MT) remains underexplored. In this work, we explore the benefits of the generation of intermediate tokens when performing MT across multiple language pairs of different levels of resourcedness and multiple setups. We find that "thinking tokens" do not help LRMs better perform MT. This result generalizes to models fine-tuned to reason before translating using distilled chain of thought (CoT) inspired by human translators' practices. Specifically, fine-tuning a model with synthetic CoT explanations detailing how to translate step-by-step does not outperform standard input-output fine-tuning. However, constructing the intermediate tokens by combining the outputs of modular translation-specific prompting strategies results in improvements. Our findings underscore that the contribution of intermediate tokens during fine-tuning highly depends on the presence of translation attempts within them. More broadly, our results suggest that using a teacher to refine target translations or to expand parallel corpora is more impactful than distilling their CoT explanations into "thinking" MT models.
- Abstract(参考訳): 大きな推論モデル(LRM)は、クエリに応答する前に自然言語の思考プロセスを開発することによって、問題解決の観点から新たな可能性をもたらしている。
それらの能力は数学やコーディングのタスクでよく知られているが、機械翻訳(MT)のタスクに対する影響はいまだ解明されていない。
本研究では,複数の言語対にまたがる複数のリソースと複数のセットアップでMTを実行する場合の中間トークン生成の利点について検討する。
この結果は、人間の翻訳者の実践にインスパイアされた蒸留された思考の連鎖(CoT)を用いて翻訳する前に、合理的に微調整されたモデルに一般化される。
具体的には、ステップバイステップの翻訳方法を詳述した合成CoT説明によるモデル微調整は、標準入力出力微調整よりも優れていない。
しかし、モジュール翻訳固有のプロンプト戦略の出力を組み合わせて中間トークンを構築することにより、改善がもたらされる。
その結果, 微調整中の中間トークンの寄与は, 翻訳の試みの有無に大きく依存していることが判明した。
より広範に,本研究の結果から,教師が目標翻訳を洗練したり,並列コーパスを拡張することは,CoTの説明を「思考」MTモデルに蒸留するよりも影響が大きいことが示唆された。
関連論文リスト
- Please Translate Again: Two Simple Experiments on Whether Human-Like Reasoning Helps Translation [18.00698389204074]
性能向上が、Chain-of-Thought推論を通じて翻訳プロセスを明示的に分解することに起因するという明確な証拠は示さない。
分解は翻訳行動に影響を及ぼすが、分解に対する忠実さは翻訳に肯定的かつ否定的な影響をもたらす。
論文 参考訳(メタデータ) (2025-06-05T00:04:39Z) - BridG MT: Enhancing LLMs' Machine Translation Capabilities with Sentence Bridging and Gradual MT [5.323504404265276]
本稿では, 文列をブリッジとして生成し, 翻訳し易いものから難しいものへと徐々に移行するBridG MTと, 文列を先行翻訳を用いて逐次変換するGradual MTを提案する。
7言語にまたがる4つのLLM実験により,本手法が翻訳性能を効果的に向上することを示した。
論文 参考訳(メタデータ) (2024-10-15T15:26:28Z) - MT-PATCHER: Selective and Extendable Knowledge Distillation from Large Language Models for Machine Translation [61.65537912700187]
機械翻訳(MT)分野における言語モデル(LLM)の強みを実証した。
我々は,LLMから既存のMTモデルに選択的かつ包括的かつ積極的に知識を伝達するMT-Patcherというフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-14T16:07:39Z) - TIM: Teaching Large Language Models to Translate with Comparison [78.66926087162672]
本稿では,LLMに翻訳学習を教えるために,サンプルを用いた新しいフレームワークを提案する。
我々のアプローチは、正しい翻訳例と間違った翻訳例をモデルに提示し、好みの損失を使ってモデルの学習をガイドすることである。
本研究は,翻訳タスクのための微調整LDMの新しい視点を提供し,高品質な翻訳を実現するための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2023-07-10T08:15:40Z) - Adaptive Machine Translation with Large Language Models [7.803471587734353]
実時間適応型機械翻訳を改善するために,テキスト内学習をいかに活用できるかを検討する。
英語-アラビア語(EN-AR)、英語-中国語(EN-ZH)、英語-フランス語(EN-FR)、英語-キニャルワンダ(EN-RW)、英語-スペイン語(EN-ES)の5つの多種多様な言語対の実験を行った。
論文 参考訳(メタデータ) (2023-01-30T21:17:15Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。