論文の概要: Long Chain-of-Thought Reasoning Across Languages
- arxiv url: http://arxiv.org/abs/2508.14828v1
- Date: Wed, 20 Aug 2025 16:22:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.525066
- Title: Long Chain-of-Thought Reasoning Across Languages
- Title(参考訳): 言語間の長鎖推論
- Authors: Josh Barua, Seun Eisape, Kayo Yin, Alane Suhr,
- Abstract要約: ロングチェーン・オブ・シークレット(CoTs)による推論のスケーリングにより、大規模言語モデル(LLMs)における印象的な推論機能が解放された。
本研究では,2つの英文推論データセット,ファインチューン Qwen 2.5 (7B) および Qwen 3 (8B) モデルの翻訳版を構築し,フランス語,日本語,ラトビア語,スワヒリ語にまたがる長いCoT生成の体系的研究を行った。
- 参考スコア(独自算出の注目度): 11.823604358250149
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling inference through long chains-of-thought (CoTs) has unlocked impressive reasoning capabilities in large language models (LLMs), yet the reasoning process remains almost exclusively English-centric. We construct translated versions of two popular English reasoning datasets, fine-tune Qwen 2.5 (7B) and Qwen 3 (8B) models, and present a systematic study of long CoT generation across French, Japanese, Latvian, and Swahili. Our experiments reveal three key findings. First, the efficacy of using English as a pivot language varies by language: it provides no benefit for French, improves performance when used as the reasoning language for Japanese and Latvian, and proves insufficient for Swahili where both task comprehension and reasoning remain poor. Second, extensive multilingual pretraining in Qwen 3 narrows but does not eliminate the cross-lingual performance gap. A lightweight fine-tune using only 1k traces still improves performance by over 30\% in Swahili. Third, data quality versus scale trade-offs are language dependent: small, carefully curated datasets suffice for English and French, whereas larger but noisier corpora prove more effective for Swahili and Latvian. Together, these results clarify when and why long CoTs transfer across languages and provide translated datasets to foster equitable multilingual reasoning research.
- Abstract(参考訳): ロングチェーン・オブ・シークレット(CoTs)による推論をスケールすることで、大きな言語モデル(LLMs)における印象的な推論能力が解放されたが、推論プロセスはほぼ英語中心のままである。
本研究では,2つの英文推論データセット,ファインチューン Qwen 2.5 (7B) および Qwen 3 (8B) モデルの翻訳版を構築し,フランス語,日本語,ラトビア語,スワヒリ語にまたがる長いCoT生成の体系的研究を行った。
私たちの実験では3つの重要な発見が明らかになった。
第一に、英語をピボット言語として使う効果は言語によって異なり、フランス語の利点が得られず、日本語とラトビア語の推論言語として使用する場合のパフォーマンスが向上し、タスク理解と推論の両方が貧弱なスワヒリでは不十分であることが証明される。
第2に、Qwen 3の狭義の多言語事前学習は、多言語間性能ギャップを排除しない。
1kトレースしか使用していない軽量のファインチューンは、スワヒリにおけるパフォーマンスを30%以上改善している。
第3に、データ品質とスケールトレードオフは言語に依存しており、スワヒリ語とラトビア語ではより大きいがノイズの多いコーパスの方が有効である。
これらの結果から,CoTsが言語間でいつ,なぜ長くなるのかを明らかにするとともに,同種の多言語推論研究を育成するための翻訳データセットを提供する。
関連論文リスト
- A Comprehensive Evaluation of Multilingual Chain-of-Thought Reasoning: Performance, Consistency, and Faithfulness Across Languages [48.68444770923683]
マルチリンガル・チェーン・オブ・ソート(CoT)推論の最初の包括的研究について述べる。
LRMがターゲット言語ですぐに考えることができる場合、言語コンプライアンス、解答精度、解答一貫性を計測する。
思考の痕跡の質と有効性は、素早い言語によって大きく異なることがわかった。
論文 参考訳(メタデータ) (2025-10-10T17:06:50Z) - EfficientXLang: Towards Improving Token Efficiency Through Cross-Lingual Reasoning [12.511775058257328]
推論において最もトークン効率のよい言語が英語かどうかを考察する。
非英語言語における推論はトークンの使用量を減少させるだけでなく、正確性も維持する。
改善の程度は、多言語強度のモデルに依存する。
論文 参考訳(メタデータ) (2025-06-30T20:29:52Z) - Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。
この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。
さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文 参考訳(メタデータ) (2025-05-24T12:31:27Z) - Language Matters: How Do Multilingual Input and Reasoning Paths Affect Large Reasoning Models? [59.970391602080205]
多言語トレーニングにも拘わらず、LRMはテスト時に高リソース言語での推論をデフォルトとする傾向にある。
文化的推論は、推論タスクのパフォーマンスを低下させるが、文化的なタスクに恩恵を与える一方、安全性評価は言語固有の振る舞いを示す。
論文 参考訳(メタデータ) (2025-05-23T02:46:18Z) - Tracing Multilingual Factual Knowledge Acquisition in Pretraining [62.95057983661562]
大規模言語モデル(LLM)は、事前学習データに存在する多言語事実知識をリコールすることができる。
我々は,OLMo-7Bに焦点をあてて,事前学習中に現実のリコールと言語間の整合性がどのように進化するかを辿った。
ほとんどの言語では、正確性と一貫性が時間の経過とともに向上していることが分かりました。
論文 参考訳(メタデータ) (2025-05-20T18:39:56Z) - Crosslingual Reasoning through Test-Time Scaling [51.55526326294275]
英語中心の推論言語モデル(RLM)に対する推論計算のスケールアップは、多くの言語における多言語数学的推論を改善する。
英語中心の RLM の CoT は自然に英語が主流であるが、引用された非英語入力を推論するための引用と思考のパターンは一貫して従っている。
我々は、ドメイン外推論の一般化、特にSTEMから文化常識の知識まで、英語においても、貧弱なドメイン外推論の一般化を観察する。
論文 参考訳(メタデータ) (2025-05-08T16:50:06Z) - Scaling Test-time Compute for Low-resource Languages: Multilingual Reasoning in LLMs [3.9530780161144667]
本稿では,大規模言語モデルが潜在空間で内部的に操作する多言語メカニズムについて検討する。
我々は、低リソース言語での入力を条件に、ターゲット言語で最終応答を出力しながら、英語でチェーン・オブ・ソート(CoT)を生成するモデルを訓練する。
我々の実験では、この手法は英語によるCoTトレーニングと呼ばれ、28.33%の改善で他のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-04-02T16:58:36Z) - Demystifying Multilingual Chain-of-Thought in Process Reward Modeling [86.98098988779809]
プロセス報酬モデル(PRM)を多言語設定に拡張するという課題に対処する。
我々は、7つの言語にまたがるデータセット上で多言語PRMを訓練し、それを英語から翻訳する。
本結果は,学習言語数と英語データ量の両方に対する多言語PRMの感度を強調した。
論文 参考訳(メタデータ) (2025-02-18T09:11:44Z) - AdaMCoT: Rethinking Cross-Lingual Factual Reasoning through Adaptive Multilingual Chain-of-Thought [40.16140566668239]
AdaMCOTは多言語の事実推論を強化するフレームワークである。
AdaMCOTは、ターゲット言語応答を生成する前に、中間言語における思考プロセスを動的にルーティングする。
本評価は, 事実推論品質と言語間整合性の両方において, 大幅な改善を示すものである。
論文 参考訳(メタデータ) (2025-01-27T15:48:57Z) - mCoT: Multilingual Instruction Tuning for Reasoning Consistency in Language Models [21.616940026409818]
大規模言語モデル(LLM)とChain-of-Thought(CoT)は、最近、下流タスクを改善するために推論を誘発する強力なテクニックとして登場した。
オープンソース LLM を用いて,多言語間の多言語推論の整合性について検討する。
言語間の推論能力を向上させるため,多言語CoT命令チューニングを導入し,モデルの整合性を向上させる。
論文 参考訳(メタデータ) (2024-06-04T13:30:45Z) - Could We Have Had Better Multilingual LLMs If English Was Not the Central Language? [4.655168524016426]
大規模言語モデル(LLM)は、トレーニング対象の言語に対して強力な機械翻訳能力を示す。
我々の研究は、Llama2の翻訳能力について論じている。
実験の結果,7B Llama2モデルはこれまでに見たすべての言語に翻訳すると10 BLEU以上になることがわかった。
論文 参考訳(メタデータ) (2024-02-21T16:32:38Z) - Question Translation Training for Better Multilingual Reasoning [108.10066378240879]
大規模言語モデルは推論タスクにおいて魅力的なパフォーマンスを示すが、英語以外の言語ではより悪いパフォーマンスを示す傾向がある。
典型的な解決策は、命令データを興味のあるすべての言語に翻訳し、結果の多言語データをトレーニングすることである。
本稿では,X- English parallel question dataを微調整することで,推論する質問を英語に翻訳するモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-15T16:39:10Z) - xCoT: Cross-lingual Instruction Tuning for Cross-lingual
Chain-of-Thought Reasoning [36.34986831526529]
CoT(Chain-of-Thought)は、大規模言語モデルにおける推論を誘発する強力なテクニックとして登場した。
本稿では,ハイソース言語から低リソース言語へ知識を伝達するための言語間命令微調整フレームワーク(xCOT)を提案する。
論文 参考訳(メタデータ) (2024-01-13T10:53:53Z) - GATE: Graph Attention Transformer Encoder for Cross-lingual Relation and
Event Extraction [107.8262586956778]
言語に依存しない文表現を学習するために、普遍的な依存解析を伴うグラフ畳み込みネットワーク(GCN)を導入する。
GCNは、長い範囲の依存関係を持つ単語をモデル化するのに苦労する。
そこで本研究では,構文的距離の異なる単語間の依存関係を学習するための自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-06T20:30:35Z) - Knowledge Distillation for Multilingual Unsupervised Neural Machine
Translation [61.88012735215636]
unsupervised neural machine translation (UNMT) は、最近、いくつかの言語対に対して顕著な結果を得た。
UNMTは単一の言語ペア間でのみ翻訳することができ、同時に複数の言語ペアに対して翻訳結果を生成することはできない。
本稿では,1つのエンコーダと1つのデコーダを用いて13言語間を翻訳する簡単な手法を実証的に紹介する。
論文 参考訳(メタデータ) (2020-04-21T17:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。