論文の概要: Large Reasoning Models Are (Not Yet) Multilingual Latent Reasoners
- arxiv url: http://arxiv.org/abs/2601.02996v1
- Date: Tue, 06 Jan 2026 13:20:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.941739
- Title: Large Reasoning Models Are (Not Yet) Multilingual Latent Reasoners
- Title(参考訳): 大規模共振モデルは(まだ)多言語ラテント共振器である
- Authors: Yihong Liu, Raoyuan Zhao, Hinrich Schütze, Michael A. Hedderich,
- Abstract要約: 大きな推論モデル(LRM)は、数学的推論タスクにおいて高い性能を達成する。
LRMは、これらのテキスト推論ステップを完了する前に、正しい答えに到達することが多い。
この現象は英語で研究されてきたが、多言語的行動はほとんど分かっていない。
- 参考スコア(独自算出の注目度): 48.68444770923683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large reasoning models (LRMs) achieve strong performance on mathematical reasoning tasks, often attributed to their capability to generate explicit chain-of-thought (CoT) explanations. However, recent work shows that LRMs often arrive at the correct answer before completing these textual reasoning steps, indicating the presence of latent reasoning -- internal, non-verbal computation encoded in hidden states. While this phenomenon has been explored in English, its multilingual behavior remains largely unknown. In this paper, we conduct a systematic investigation of multilingual latent reasoning in LRMs across 11 languages. Using a truncation-based strategy, we examine how the correct answer emerges as the model is given only partial reasoning traces, allowing us to measure stepwise latent prediction formation. Our results reveal clear evidence of multilingual latent reasoning, though unevenly: strong in resource-rich languages, weaker in low-resource ones, and broadly less observable on harder benchmarks. To understand whether these differences reflect distinct internal mechanisms, we further perform representational analyses. Despite surface-level disparities, we find that the internal evolution of predictions is highly consistent across languages and broadly aligns with English -- a pattern suggesting an English-centered latent reasoning pathway.
- Abstract(参考訳): 大規模推論モデル(LRM)は数学的推論タスクにおいて高い性能を達成するが、これはしばしば、明示的なチェーン・オブ・シント(CoT)説明を生成する能力に起因している。
しかし、最近の研究は、LRMがこれらのテキスト推論ステップを完了する前に正しい答えに達することがしばしば示され、隠れた状態に符号化された内部の非言語計算の存在が示される。
この現象は英語で研究されているが、多言語的行動はほとんど分かっていない。
本稿では,11言語にわたるLEMにおける多言語潜在推論を体系的に検討する。
トラルニケーションに基づく戦略を用いて、モデルが部分的推論トレースのみを与えられたときに正解がどのように現れるかを検証し、段階的に潜時予測の生成を測定する。
資源豊富な言語では強いが、低リソースでは弱いし、より厳しいベンチマークでは観測できない。
これらの違いが異なる内部メカニズムを反映しているかどうかを理解するために、さらに表現解析を行う。
表面レベルの相違にもかかわらず、予測の内部的な進化は言語間で非常に一貫性があり、英語と広く一致している。
関連論文リスト
- Beg to Differ: Understanding Reasoning-Answer Misalignment Across Languages [43.36259715282423]
我々はGlobalMMLUの6つの言語と6つのフロンティアモデルにおける65kの推論トレースを分析した。
非ラテン文字における推論の痕跡は、少なくともラテン文字よりも推論と結論の2倍のミスアライメントを示している。
論文 参考訳(メタデータ) (2025-12-27T21:55:21Z) - Cross-lingual Collapse: How Language-Centric Foundation Models Shape Reasoning in Large Language Models [44.94287386776289]
textbfCross-lingual Collapseは、多言語言語モデルが支配的な事前学習言語に回帰する体系的なドリフトである。
実験の結果, (i)GRPOは事前学習言語の不均衡を急速に増幅し, わずか数百回の更新で低リソース言語が侵食され, (ii) 言語整合性報酬はこのドリフトを緩和するが, ほぼ5~10ppの精度の低下を犠牲にしていることがわかった。
論文 参考訳(メタデータ) (2025-06-06T08:08:48Z) - Language Matters: How Do Multilingual Input and Reasoning Paths Affect Large Reasoning Models? [59.970391602080205]
多言語トレーニングにも拘わらず、LRMはテスト時に高リソース言語での推論をデフォルトとする傾向にある。
文化的推論は、推論タスクのパフォーマンスを低下させるが、文化的なタスクに恩恵を与える一方、安全性評価は言語固有の振る舞いを示す。
論文 参考訳(メタデータ) (2025-05-23T02:46:18Z) - When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.50503126693444]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。
トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文 参考訳(メタデータ) (2025-05-21T08:35:05Z) - Crosslingual Reasoning through Test-Time Scaling [51.55526326294275]
英語中心の推論言語モデル(RLM)に対する推論計算のスケールアップは、多くの言語における多言語数学的推論を改善する。
英語中心の RLM の CoT は自然に英語が主流であるが、引用された非英語入力を推論するための引用と思考のパターンは一貫して従っている。
我々は、ドメイン外推論の一般化、特にSTEMから文化常識の知識まで、英語においても、貧弱なドメイン外推論の一般化を観察する。
論文 参考訳(メタデータ) (2025-05-08T16:50:06Z) - Large Language Models are In-Context Semantic Reasoners rather than
Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。
多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。
本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文 参考訳(メタデータ) (2023-05-24T07:33:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。