論文の概要: Rethinking the Multilingual Reasoning Gap with Layer Swap
- arxiv url: http://arxiv.org/abs/2605.26735v1
- Date: Tue, 26 May 2026 09:11:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.781908
- Title: Rethinking the Multilingual Reasoning Gap with Layer Swap
- Title(参考訳): レイヤスワップによる多言語推論ギャップの再考
- Authors: Maxence Lasbordes, Amélie Chatelain, Djamé Seddah,
- Abstract要約: 最近のモデルは、英語以外の言語でも、主に英語でチェーン・オブ・シントを生み出している。
6言語にわたる長い多言語推論データセットを構築した。
ネイティブ推論のギャップは、5つの非英語言語で1.9--3.5%に縮小する。
- 参考スコア(独自算出の注目度): 3.346347676968746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent reasoning Large Language Models produce a chain-of-thought (CoT) predominantly in English, even when prompted in non-English languages. Prior work suggests that forcing the CoT to remain in the input language (\emph{native reasoning}) substantially degrades performance relative to allowing the model to reason in English before answering in the input language (\emph{English-pivoted reasoning}). However, most studies of this native reasoning gap rely on inference-time interventions or limited native-language training data. We revisit this comparison at a larger scale and under comparable supervision. We construct long multilingual reasoning datasets across six languages (English, French, German, Spanish, Chinese and Swahili); fine-tune specialists in both native and English-pivoted regimes on top of \texttt{Qwen/Qwen3-8B-Base}, and evaluate across mathematics, science, general knowledge, and code. In this setting, the average native reasoning gap shrinks to 1.9--3.5\% across the five non-English languages, considerably smaller than previously reported. Weight-space analysis of the native specialists reveals aligned fine-tuning updates in the middle layers and divergence in the outer layers. This points to a largely language-agnostic reasoning core surrounded by language-specific layers. Exploiting this structure, we introduce a Layer Swap: transferring the English specialist's stronger reasoning mid-layers into each native specialist, closing most of the native reasoning gap across the five non-English languages while preserving CoT in the target language. We release all models and datasets.
- Abstract(参考訳): 近年の大規模言語モデルでは、英語以外の言語でも、主に英語でチェーン・オブ・シント(CoT)が生み出されている。
以前の研究は、CoTが入力言語(\emph{native reasoning})に留まることを強制することは、入力言語(\emph{ English-pivoted reasoning})で答える前に、モデルが英語で推論できるようにすることで、パフォーマンスを著しく低下させることを示唆している。
しかし、このネイティブ推論ギャップのほとんどの研究は、推論時間の介入やネイティブ言語の訓練データに頼っている。
我々は、この比較を大規模かつ同等の監督下で再考する。
我々は、6つの言語(英語、フランス語、ドイツ語、スペイン語、中国語、スワヒリ語)にわたる長い多言語推論データセットを構築します。
この設定では、平均的なネイティブ推論のギャップは、5つの非英語言語で1.9-3.5\%に縮まり、以前報告されたよりもかなり小さい。
ネイティブスペシャリストの重量空間分析では、中間層での微調整と外部層でのばらつきが明確になっている。
これは、言語固有のレイヤに囲まれた、言語に依存しない推論のコアを指している。
英語スペシャリストの強い推論中間層をそれぞれのネイティブスペシャリストに転送し、ターゲット言語でCoTを保ちながら、5つの非英語言語のネイティブ推論ギャップの大部分を埋める。
すべてのモデルとデータセットをリリースします。
関連論文リスト
- Is continuous CoT better suited for multi-lingual reasoning? [3.310732781690877]
連続潜在空間における推論の実行がより堅牢な多言語機能に繋がるかどうかを考察する。
我々は,5言語にまたがる標準教師付き微調整と連続的連鎖(CODIフレームワークを使用)を比較した。
論文 参考訳(メタデータ) (2026-03-09T09:57:08Z) - Learn Globally, Speak Locally: Bridging the Gaps in Multilingual Reasoning [39.03934159726098]
M2Aは,マルチスケール多言語アライメントと,機械翻訳された質問に対する言語一貫性報酬を組み合わせた新しい手法である。
地理に基づく多言語事実推論ベンチマークであるGeoFact-Xと5言語での推論トレースを紹介する。
以上の結果から,M2Aは数学的および事実的推論タスクにおいて,多言語推論の忠実度を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-07-07T19:04:36Z) - EfficientXLang: Towards Improving Token Efficiency Through Cross-Lingual Reasoning [12.511775058257328]
推論において最もトークン効率のよい言語が英語かどうかを考察する。
非英語言語における推論はトークンの使用量を減少させるだけでなく、正確性も維持する。
改善の程度は、多言語強度のモデルに依存する。
論文 参考訳(メタデータ) (2025-06-30T20:29:52Z) - MMATH: A Multilingual Benchmark for Mathematical Reasoning [94.05289799605957]
MMATHは10言語にまたがる374の高品質な数学問題にまたがる多言語複雑推論のためのベンチマークである。
我々は、DeepSeek R1のような先進モデルでさえ、言語間での大幅な性能格差を示し、意図しない言語において重要な目標外問題発生応答に悩まされていることを観察する。
本研究は,大規模言語モデルの多言語推論能力向上のための新たな洞察と実践的戦略を提供する。
論文 参考訳(メタデータ) (2025-05-25T12:47:39Z) - Language Matters: How Do Multilingual Input and Reasoning Paths Affect Large Reasoning Models? [59.970391602080205]
多言語トレーニングにも拘わらず、LRMはテスト時に高リソース言語での推論をデフォルトとする傾向にある。
文化的推論は、推論タスクのパフォーマンスを低下させるが、文化的なタスクに恩恵を与える一方、安全性評価は言語固有の振る舞いを示す。
論文 参考訳(メタデータ) (2025-05-23T02:46:18Z) - When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.50503126693444]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。
トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文 参考訳(メタデータ) (2025-05-21T08:35:05Z) - Crosslingual Reasoning through Test-Time Scaling [51.55526326294275]
英語中心の推論言語モデル(RLM)に対する推論計算のスケールアップは、多くの言語における多言語数学的推論を改善する。
英語中心の RLM の CoT は自然に英語が主流であるが、引用された非英語入力を推論するための引用と思考のパターンは一貫して従っている。
我々は、ドメイン外推論の一般化、特にSTEMから文化常識の知識まで、英語においても、貧弱なドメイン外推論の一般化を観察する。
論文 参考訳(メタデータ) (2025-05-08T16:50:06Z) - Multilingual Contrastive Decoding via Language-Agnostic Layers Skipping [60.458273797431836]
対照的なレイヤ(DoLa)によるデコーディングは、大規模言語モデルの生成品質を改善するために設計されている。
このアプローチは英語以外のタスクではうまくいきません。
モデルの前方通過における言語遷移に関する従来の解釈可能性の研究から着想を得て,改良されたコントラスト復号アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-15T15:14:01Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。