論文の概要: Long Chain-of-Thought Reasoning Across Languages
- arxiv url: http://arxiv.org/abs/2508.14828v2
- Date: Thu, 09 Oct 2025 05:36:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 15:34:28.63953
- Title: Long Chain-of-Thought Reasoning Across Languages
- Title(参考訳): 言語間の長鎖推論
- Authors: Josh Barua, Seun Eisape, Kayo Yin, Alane Suhr,
- Abstract要約: モデル開発の4つの重要な段階として,スケーリング,事前学習,ポストトレーニング,推論について検討する。
スケーリング推論モデルのサイズはEn-CoTの多言語タスク性能を改善するが、Target-CoTのパフォーマンスは遅れている。
英語以外の言語で高品質な推論トレースが不足していることを踏まえ,ポストトレーニングのための合成データキュレーション手法について検討する。
- 参考スコア(独自算出の注目度): 14.79632337642471
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large reasoning models have shown remarkable ability to generate long chains-of-thought (CoTs) in English, we still lack understanding of how these long-form reasoning abilities transfer to the vast majority of the world's languages. In this work, we systematically investigate four key stages of model development--scaling, pretraining, post-training, and inference--to understand how long CoT capabilities extend beyond English. We compare two reasoning settings across nine non-English target languages: En-CoT, where models process target-language inputs, but reason in English; and Target-CoT, where models both process inputs and generate long CoTs in the target language. We find that scaling reasoning model size improves multilingual task performance in En-CoT, but Target-CoT performance lags behind. This gap widens for tasks requiring long, multi-step CoTs such as mathematical reasoning. Shifting to pretraining, we find that adding a specialized reasoning stage enhances En-CoT performance but degrades Target-CoT, whereas broad multilingual pretraining improves both modes simultaneously. Given the scarcity of high-quality reasoning traces in languages other than English, we explore synthetic data curation approaches for post-training. We demonstrate that fine-tuning on reasoning traces automatically translated from gold English traces outperforms fine-tuning on target-language traces distilled from large reasoning models. Finally, we report disparities in inference efficiency between languages and uncover language-specific failure modes in CoTs. We release models, datasets, and code to foster further research.
- Abstract(参考訳): 大きな推論モデルは、英語で長い連鎖(CoT)を生成する素晴らしい能力を示してきたが、これらの長文推論能力が世界のほとんどの言語にどのように移行するかについては、まだ理解されていない。
本研究では,CoTの能力が英語を超えてどれだけ長いかを理解するために,スケーリング,事前学習,ポストトレーニング,推論という,モデル開発の4つの重要な段階を体系的に検討する。
対象言語の入力をモデルが処理するEn-CoTと、ターゲット言語の入力をモデルが処理し、ターゲット言語の長いCoTを生成するTarget-CoTの2つの推論設定を比較した。
スケーリング推論モデルのサイズはEn-CoTの多言語タスク性能を改善するが、Target-CoTのパフォーマンスは遅れている。
このギャップは、数学的推論のような長い多段階のCoTを必要とするタスクに対して拡大する。
事前学習にシフトすると、特別な推論段階を追加することでEn-CoT性能は向上するが、Target-CoTは低下するのに対し、多言語事前学習は両モードを同時に改善することがわかった。
英語以外の言語で高品質な推論トレースが不足していることを踏まえ,ポストトレーニングのための合成データキュレーション手法について検討する。
本研究は,ゴールド・イングリッシュ・トレースから自動的に翻訳された推論トレースの微調整が,大規模推論モデルから抽出したターゲット言語トレースの微調整よりも優れていることを示す。
最後に,言語間の推論効率の相違と,CoTにおける言語固有の障害モードの発見について報告する。
さらなる研究を促進するために、モデルやデータセット、コードをリリースしています。
関連論文リスト
- EfficientXLang: Towards Improving Token Efficiency Through Cross-Lingual Reasoning [12.511775058257328]
推論において最もトークン効率のよい言語が英語かどうかを考察する。
非英語言語における推論はトークンの使用量を減少させるだけでなく、正確性も維持する。
改善の程度は、多言語強度のモデルに依存する。
論文 参考訳(メタデータ) (2025-06-30T20:29:52Z) - Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。
この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。
さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文 参考訳(メタデータ) (2025-05-24T12:31:27Z) - Tracing Multilingual Factual Knowledge Acquisition in Pretraining [62.95057983661562]
大規模言語モデル(LLM)は、事前学習データに存在する多言語事実知識をリコールすることができる。
我々は,OLMo-7Bに焦点をあてて,事前学習中に現実のリコールと言語間の整合性がどのように進化するかを辿った。
ほとんどの言語では、正確性と一貫性が時間の経過とともに向上していることが分かりました。
論文 参考訳(メタデータ) (2025-05-20T18:39:56Z) - Could We Have Had Better Multilingual LLMs If English Was Not the Central Language? [4.655168524016426]
大規模言語モデル(LLM)は、トレーニング対象の言語に対して強力な機械翻訳能力を示す。
我々の研究は、Llama2の翻訳能力について論じている。
実験の結果,7B Llama2モデルはこれまでに見たすべての言語に翻訳すると10 BLEU以上になることがわかった。
論文 参考訳(メタデータ) (2024-02-21T16:32:38Z) - Question Translation Training for Better Multilingual Reasoning [108.10066378240879]
大規模言語モデルは推論タスクにおいて魅力的なパフォーマンスを示すが、英語以外の言語ではより悪いパフォーマンスを示す傾向がある。
典型的な解決策は、命令データを興味のあるすべての言語に翻訳し、結果の多言語データをトレーニングすることである。
本稿では,X- English parallel question dataを微調整することで,推論する質問を英語に翻訳するモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-15T16:39:10Z) - Knowledge Distillation for Multilingual Unsupervised Neural Machine
Translation [61.88012735215636]
unsupervised neural machine translation (UNMT) は、最近、いくつかの言語対に対して顕著な結果を得た。
UNMTは単一の言語ペア間でのみ翻訳することができ、同時に複数の言語ペアに対して翻訳結果を生成することはできない。
本稿では,1つのエンコーダと1つのデコーダを用いて13言語間を翻訳する簡単な手法を実証的に紹介する。
論文 参考訳(メタデータ) (2020-04-21T17:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。