論文の概要: Long Chain-of-Thought Reasoning Across Languages
- arxiv url: http://arxiv.org/abs/2508.14828v2
- Date: Thu, 09 Oct 2025 05:36:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 15:34:28.63953
- Title: Long Chain-of-Thought Reasoning Across Languages
- Title(参考訳): 言語間の長鎖推論
- Authors: Josh Barua, Seun Eisape, Kayo Yin, Alane Suhr,
- Abstract要約: モデル開発の4つの重要な段階として,スケーリング,事前学習,ポストトレーニング,推論について検討する。
スケーリング推論モデルのサイズはEn-CoTの多言語タスク性能を改善するが、Target-CoTのパフォーマンスは遅れている。
英語以外の言語で高品質な推論トレースが不足していることを踏まえ,ポストトレーニングのための合成データキュレーション手法について検討する。
- 参考スコア(独自算出の注目度): 14.79632337642471
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large reasoning models have shown remarkable ability to generate long chains-of-thought (CoTs) in English, we still lack understanding of how these long-form reasoning abilities transfer to the vast majority of the world's languages. In this work, we systematically investigate four key stages of model development--scaling, pretraining, post-training, and inference--to understand how long CoT capabilities extend beyond English. We compare two reasoning settings across nine non-English target languages: En-CoT, where models process target-language inputs, but reason in English; and Target-CoT, where models both process inputs and generate long CoTs in the target language. We find that scaling reasoning model size improves multilingual task performance in En-CoT, but Target-CoT performance lags behind. This gap widens for tasks requiring long, multi-step CoTs such as mathematical reasoning. Shifting to pretraining, we find that adding a specialized reasoning stage enhances En-CoT performance but degrades Target-CoT, whereas broad multilingual pretraining improves both modes simultaneously. Given the scarcity of high-quality reasoning traces in languages other than English, we explore synthetic data curation approaches for post-training. We demonstrate that fine-tuning on reasoning traces automatically translated from gold English traces outperforms fine-tuning on target-language traces distilled from large reasoning models. Finally, we report disparities in inference efficiency between languages and uncover language-specific failure modes in CoTs. We release models, datasets, and code to foster further research.
- Abstract(参考訳): 大きな推論モデルは、英語で長い連鎖(CoT)を生成する素晴らしい能力を示してきたが、これらの長文推論能力が世界のほとんどの言語にどのように移行するかについては、まだ理解されていない。
本研究では,CoTの能力が英語を超えてどれだけ長いかを理解するために,スケーリング,事前学習,ポストトレーニング,推論という,モデル開発の4つの重要な段階を体系的に検討する。
対象言語の入力をモデルが処理するEn-CoTと、ターゲット言語の入力をモデルが処理し、ターゲット言語の長いCoTを生成するTarget-CoTの2つの推論設定を比較した。
スケーリング推論モデルのサイズはEn-CoTの多言語タスク性能を改善するが、Target-CoTのパフォーマンスは遅れている。
このギャップは、数学的推論のような長い多段階のCoTを必要とするタスクに対して拡大する。
事前学習にシフトすると、特別な推論段階を追加することでEn-CoT性能は向上するが、Target-CoTは低下するのに対し、多言語事前学習は両モードを同時に改善することがわかった。
英語以外の言語で高品質な推論トレースが不足していることを踏まえ,ポストトレーニングのための合成データキュレーション手法について検討する。
本研究は,ゴールド・イングリッシュ・トレースから自動的に翻訳された推論トレースの微調整が,大規模推論モデルから抽出したターゲット言語トレースの微調整よりも優れていることを示す。
最後に,言語間の推論効率の相違と,CoTにおける言語固有の障害モードの発見について報告する。
さらなる研究を促進するために、モデルやデータセット、コードをリリースしています。
関連論文リスト
- A Comprehensive Evaluation of Multilingual Chain-of-Thought Reasoning: Performance, Consistency, and Faithfulness Across Languages [48.68444770923683]
マルチリンガル・チェーン・オブ・ソート(CoT)推論の最初の包括的研究について述べる。
LRMがターゲット言語ですぐに考えることができる場合、言語コンプライアンス、解答精度、解答一貫性を計測する。
思考の痕跡の質と有効性は、素早い言語によって大きく異なることがわかった。
論文 参考訳(メタデータ) (2025-10-10T17:06:50Z) - EfficientXLang: Towards Improving Token Efficiency Through Cross-Lingual Reasoning [12.511775058257328]
推論において最もトークン効率のよい言語が英語かどうかを考察する。
非英語言語における推論はトークンの使用量を減少させるだけでなく、正確性も維持する。
改善の程度は、多言語強度のモデルに依存する。
論文 参考訳(メタデータ) (2025-06-30T20:29:52Z) - Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。
この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。
さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文 参考訳(メタデータ) (2025-05-24T12:31:27Z) - Language Matters: How Do Multilingual Input and Reasoning Paths Affect Large Reasoning Models? [59.970391602080205]
多言語トレーニングにも拘わらず、LRMはテスト時に高リソース言語での推論をデフォルトとする傾向にある。
文化的推論は、推論タスクのパフォーマンスを低下させるが、文化的なタスクに恩恵を与える一方、安全性評価は言語固有の振る舞いを示す。
論文 参考訳(メタデータ) (2025-05-23T02:46:18Z) - Tracing Multilingual Factual Knowledge Acquisition in Pretraining [62.95057983661562]
大規模言語モデル(LLM)は、事前学習データに存在する多言語事実知識をリコールすることができる。
我々は,OLMo-7Bに焦点をあてて,事前学習中に現実のリコールと言語間の整合性がどのように進化するかを辿った。
ほとんどの言語では、正確性と一貫性が時間の経過とともに向上していることが分かりました。
論文 参考訳(メタデータ) (2025-05-20T18:39:56Z) - Crosslingual Reasoning through Test-Time Scaling [51.55526326294275]
英語中心の推論言語モデル(RLM)に対する推論計算のスケールアップは、多くの言語における多言語数学的推論を改善する。
英語中心の RLM の CoT は自然に英語が主流であるが、引用された非英語入力を推論するための引用と思考のパターンは一貫して従っている。
我々は、ドメイン外推論の一般化、特にSTEMから文化常識の知識まで、英語においても、貧弱なドメイン外推論の一般化を観察する。
論文 参考訳(メタデータ) (2025-05-08T16:50:06Z) - Scaling Test-time Compute for Low-resource Languages: Multilingual Reasoning in LLMs [3.9530780161144667]
本稿では,大規模言語モデルが潜在空間で内部的に操作する多言語メカニズムについて検討する。
我々は、低リソース言語での入力を条件に、ターゲット言語で最終応答を出力しながら、英語でチェーン・オブ・ソート(CoT)を生成するモデルを訓練する。
我々の実験では、この手法は英語によるCoTトレーニングと呼ばれ、28.33%の改善で他のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-04-02T16:58:36Z) - Demystifying Multilingual Chain-of-Thought in Process Reward Modeling [86.98098988779809]
プロセス報酬モデル(PRM)を多言語設定に拡張するという課題に対処する。
我々は、7つの言語にまたがるデータセット上で多言語PRMを訓練し、それを英語から翻訳する。
本結果は,学習言語数と英語データ量の両方に対する多言語PRMの感度を強調した。
論文 参考訳(メタデータ) (2025-02-18T09:11:44Z) - AdaMCoT: Rethinking Cross-Lingual Factual Reasoning through Adaptive Multilingual Chain-of-Thought [40.16140566668239]
AdaMCOTは多言語の事実推論を強化するフレームワークである。
AdaMCOTは、ターゲット言語応答を生成する前に、中間言語における思考プロセスを動的にルーティングする。
本評価は, 事実推論品質と言語間整合性の両方において, 大幅な改善を示すものである。
論文 参考訳(メタデータ) (2025-01-27T15:48:57Z) - mCoT: Multilingual Instruction Tuning for Reasoning Consistency in Language Models [21.616940026409818]
大規模言語モデル(LLM)とChain-of-Thought(CoT)は、最近、下流タスクを改善するために推論を誘発する強力なテクニックとして登場した。
オープンソース LLM を用いて,多言語間の多言語推論の整合性について検討する。
言語間の推論能力を向上させるため,多言語CoT命令チューニングを導入し,モデルの整合性を向上させる。
論文 参考訳(メタデータ) (2024-06-04T13:30:45Z) - Could We Have Had Better Multilingual LLMs If English Was Not the Central Language? [4.655168524016426]
大規模言語モデル(LLM)は、トレーニング対象の言語に対して強力な機械翻訳能力を示す。
我々の研究は、Llama2の翻訳能力について論じている。
実験の結果,7B Llama2モデルはこれまでに見たすべての言語に翻訳すると10 BLEU以上になることがわかった。
論文 参考訳(メタデータ) (2024-02-21T16:32:38Z) - Question Translation Training for Better Multilingual Reasoning [108.10066378240879]
大規模言語モデルは推論タスクにおいて魅力的なパフォーマンスを示すが、英語以外の言語ではより悪いパフォーマンスを示す傾向がある。
典型的な解決策は、命令データを興味のあるすべての言語に翻訳し、結果の多言語データをトレーニングすることである。
本稿では,X- English parallel question dataを微調整することで,推論する質問を英語に翻訳するモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-15T16:39:10Z) - xCoT: Cross-lingual Instruction Tuning for Cross-lingual
Chain-of-Thought Reasoning [36.34986831526529]
CoT(Chain-of-Thought)は、大規模言語モデルにおける推論を誘発する強力なテクニックとして登場した。
本稿では,ハイソース言語から低リソース言語へ知識を伝達するための言語間命令微調整フレームワーク(xCOT)を提案する。
論文 参考訳(メタデータ) (2024-01-13T10:53:53Z) - GATE: Graph Attention Transformer Encoder for Cross-lingual Relation and
Event Extraction [107.8262586956778]
言語に依存しない文表現を学習するために、普遍的な依存解析を伴うグラフ畳み込みネットワーク(GCN)を導入する。
GCNは、長い範囲の依存関係を持つ単語をモデル化するのに苦労する。
そこで本研究では,構文的距離の異なる単語間の依存関係を学習するための自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-06T20:30:35Z) - Knowledge Distillation for Multilingual Unsupervised Neural Machine
Translation [61.88012735215636]
unsupervised neural machine translation (UNMT) は、最近、いくつかの言語対に対して顕著な結果を得た。
UNMTは単一の言語ペア間でのみ翻訳することができ、同時に複数の言語ペアに対して翻訳結果を生成することはできない。
本稿では,1つのエンコーダと1つのデコーダを用いて13言語間を翻訳する簡単な手法を実証的に紹介する。
論文 参考訳(メタデータ) (2020-04-21T17:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。