論文の概要: Long Chain-of-Thought Reasoning Across Languages
- arxiv url: http://arxiv.org/abs/2508.14828v1
- Date: Wed, 20 Aug 2025 16:22:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.525066
- Title: Long Chain-of-Thought Reasoning Across Languages
- Title(参考訳): 言語間の長鎖推論
- Authors: Josh Barua, Seun Eisape, Kayo Yin, Alane Suhr,
- Abstract要約: ロングチェーン・オブ・シークレット(CoTs)による推論のスケーリングにより、大規模言語モデル(LLMs)における印象的な推論機能が解放された。
本研究では,2つの英文推論データセット,ファインチューン Qwen 2.5 (7B) および Qwen 3 (8B) モデルの翻訳版を構築し,フランス語,日本語,ラトビア語,スワヒリ語にまたがる長いCoT生成の体系的研究を行った。
- 参考スコア(独自算出の注目度): 11.823604358250149
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling inference through long chains-of-thought (CoTs) has unlocked impressive reasoning capabilities in large language models (LLMs), yet the reasoning process remains almost exclusively English-centric. We construct translated versions of two popular English reasoning datasets, fine-tune Qwen 2.5 (7B) and Qwen 3 (8B) models, and present a systematic study of long CoT generation across French, Japanese, Latvian, and Swahili. Our experiments reveal three key findings. First, the efficacy of using English as a pivot language varies by language: it provides no benefit for French, improves performance when used as the reasoning language for Japanese and Latvian, and proves insufficient for Swahili where both task comprehension and reasoning remain poor. Second, extensive multilingual pretraining in Qwen 3 narrows but does not eliminate the cross-lingual performance gap. A lightweight fine-tune using only 1k traces still improves performance by over 30\% in Swahili. Third, data quality versus scale trade-offs are language dependent: small, carefully curated datasets suffice for English and French, whereas larger but noisier corpora prove more effective for Swahili and Latvian. Together, these results clarify when and why long CoTs transfer across languages and provide translated datasets to foster equitable multilingual reasoning research.
- Abstract(参考訳): ロングチェーン・オブ・シークレット(CoTs)による推論をスケールすることで、大きな言語モデル(LLMs)における印象的な推論能力が解放されたが、推論プロセスはほぼ英語中心のままである。
本研究では,2つの英文推論データセット,ファインチューン Qwen 2.5 (7B) および Qwen 3 (8B) モデルの翻訳版を構築し,フランス語,日本語,ラトビア語,スワヒリ語にまたがる長いCoT生成の体系的研究を行った。
私たちの実験では3つの重要な発見が明らかになった。
第一に、英語をピボット言語として使う効果は言語によって異なり、フランス語の利点が得られず、日本語とラトビア語の推論言語として使用する場合のパフォーマンスが向上し、タスク理解と推論の両方が貧弱なスワヒリでは不十分であることが証明される。
第2に、Qwen 3の狭義の多言語事前学習は、多言語間性能ギャップを排除しない。
1kトレースしか使用していない軽量のファインチューンは、スワヒリにおけるパフォーマンスを30%以上改善している。
第3に、データ品質とスケールトレードオフは言語に依存しており、スワヒリ語とラトビア語ではより大きいがノイズの多いコーパスの方が有効である。
これらの結果から,CoTsが言語間でいつ,なぜ長くなるのかを明らかにするとともに,同種の多言語推論研究を育成するための翻訳データセットを提供する。
関連論文リスト
- EfficientXLang: Towards Improving Token Efficiency Through Cross-Lingual Reasoning [12.511775058257328]
推論において最もトークン効率のよい言語が英語かどうかを考察する。
非英語言語における推論はトークンの使用量を減少させるだけでなく、正確性も維持する。
改善の程度は、多言語強度のモデルに依存する。
論文 参考訳(メタデータ) (2025-06-30T20:29:52Z) - Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。
この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。
さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文 参考訳(メタデータ) (2025-05-24T12:31:27Z) - Tracing Multilingual Factual Knowledge Acquisition in Pretraining [62.95057983661562]
大規模言語モデル(LLM)は、事前学習データに存在する多言語事実知識をリコールすることができる。
我々は,OLMo-7Bに焦点をあてて,事前学習中に現実のリコールと言語間の整合性がどのように進化するかを辿った。
ほとんどの言語では、正確性と一貫性が時間の経過とともに向上していることが分かりました。
論文 参考訳(メタデータ) (2025-05-20T18:39:56Z) - Could We Have Had Better Multilingual LLMs If English Was Not the Central Language? [4.655168524016426]
大規模言語モデル(LLM)は、トレーニング対象の言語に対して強力な機械翻訳能力を示す。
我々の研究は、Llama2の翻訳能力について論じている。
実験の結果,7B Llama2モデルはこれまでに見たすべての言語に翻訳すると10 BLEU以上になることがわかった。
論文 参考訳(メタデータ) (2024-02-21T16:32:38Z) - Question Translation Training for Better Multilingual Reasoning [108.10066378240879]
大規模言語モデルは推論タスクにおいて魅力的なパフォーマンスを示すが、英語以外の言語ではより悪いパフォーマンスを示す傾向がある。
典型的な解決策は、命令データを興味のあるすべての言語に翻訳し、結果の多言語データをトレーニングすることである。
本稿では,X- English parallel question dataを微調整することで,推論する質問を英語に翻訳するモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-15T16:39:10Z) - Knowledge Distillation for Multilingual Unsupervised Neural Machine
Translation [61.88012735215636]
unsupervised neural machine translation (UNMT) は、最近、いくつかの言語対に対して顕著な結果を得た。
UNMTは単一の言語ペア間でのみ翻訳することができ、同時に複数の言語ペアに対して翻訳結果を生成することはできない。
本稿では,1つのエンコーダと1つのデコーダを用いて13言語間を翻訳する簡単な手法を実証的に紹介する。
論文 参考訳(メタデータ) (2020-04-21T17:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。