論文の概要: Language as a Latent Variable for Reasoning Optimization
- arxiv url: http://arxiv.org/abs/2604.21593v1
- Date: Thu, 23 Apr 2026 12:19:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.483604
- Title: Language as a Latent Variable for Reasoning Optimization
- Title(参考訳): 推論最適化のための潜在変数としての言語
- Authors: Linjuan Wu, Haoran Wei, Jialong Tang, Shuang Luo, Baosong Yang, Yongliang Shen, Weiming Lu,
- Abstract要約: LLMは英語中心のバイアスを減らすので、驚くべき傾向が現れます。
モデルの内部推論経路を構造的に修飾する潜在変数として機能する言語を仮定する。
言語変化を暗黙的な探索信号として扱うRLフレームワークであるpolyGRPOを提案する。
- 参考スコア(独自算出の注目度): 45.35129925776798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As LLMs reduce English-centric bias, a surprising trend emerges: non-English responses sometimes outperform English on reasoning tasks. We hypothesize that language functions as a latent variable that structurally modulates the model's internal inference pathways, rather than merely serving as an output medium. To test this, we conducted a Polyglot Thinking Experiment, in which models were prompted to solve identical problems under language-constrained and language-unconstrained conditions. Results show that non-English responses often achieve higher accuracy, and the best performance frequently occur when language is unconstrained, suggesting that multilinguality broadens the model's latent reasoning space. Based on this insight, we propose polyGRPO (Polyglot Group Relative Policy Optimization), an RL framework that treats language variation as an implicit exploration signal. It generates polyglot preference data online under language-constrained and unconstrained conditions, optimizing the policy with respect to both answer accuracy and reasoning structure. Trained on only 18.1K multilingual math problems without chain-of-thought annotations, polyGRPO improves the base model (Qwen2.5-7B-Instruct) by 6.72% absolute accuracy on four English reasoning testset and 6.89% in their multilingual benchmark. Remarkably, it is the only method that surpasses the base LLM on English commonsense reasoning task (4.9%), despite being trained solely on math data-highlighting its strong cross-task generalization. Further analysis reveals that treating language as a latent variable expands the model's latent reasoning space, yielding consistent and generalizable improvements in reasoning performance.
- Abstract(参考訳): LLMは英語中心のバイアスを減らすので、驚くべき傾向が現れます。
我々は、単に出力媒体として機能するのではなく、モデルの内部推論経路を構造的に修飾する潜在変数としての言語機能について仮説を立てる。
これをテストするために,多言語思考実験を行い,言語制約と言語制約の条件下での同一の問題をモデルで解いた。
その結果、非英語応答は高い精度を達成し、言語が制約されない場合に最高の性能がしばしば発生することが示され、多言語性はモデルの潜在推論空間を広げることが示された。
この知見に基づいて,言語変化を暗黙的な探索信号として扱うRLフレームワークであるpolyGRPO(Polyglot Group Relative Policy Optimization)を提案する。
言語制約や制約のない条件下で、オンラインでポリグロット嗜好データを生成し、回答精度と推論構造の両方に関してポリシーを最適化する。
チェイン・オブ・シンクトのアノテーションを使わずに18.1Kの多言語数学の問題を訓練し、PolyGRPOはベースモデル(Qwen2.5-7B-Instruct)を4つの英語の推論テストセットで6.72%、マルチ言語ベンチマークで6.89%精度で改善した。
注目すべきは、これは英語のコモンセンス推論タスク(4.9%)の基本的なLLMを超える唯一の方法である。
さらに解析により、言語を潜在変数として扱うことにより、モデルの潜在推論空間が拡張され、推論性能が一貫した一般化可能な改善がもたらされることが明らかとなった。
関連論文リスト
- Align to the Pivot: Dual Alignment with Self-Feedback for Multilingual Math Reasoning [71.4175109189942]
Pivot-Aligned Self-Feedback Multilingual Reasoning (PASMR)を提案する。
このアプローチは、モデルの第一言語をピボット言語として指定する。
外部の正しい回答や報酬モデルに頼ることなく、言語横断的な自己フィードバック機構を確立する。
論文 参考訳(メタデータ) (2026-01-25T03:20:00Z) - Aligning Multilingual Reasoning with Verifiable Semantics from a High-Resource Expert Model [13.788758077632432]
本稿では,セマンティック検証リワードを用いたPivot-based Reinforcement Learningを紹介する。
このフレームワークは、ターゲット言語における人間の注釈付きデータの必要性を回避し、多言語推論を強化する。
提案手法は,英語と他言語のパフォーマンスギャップを著しく狭めることを示す。
論文 参考訳(メタデータ) (2025-09-29T22:03:11Z) - Cross-Lingual Consistency: A Novel Inference Framework for Advancing Reasoning in Large Language Models [10.231866835957538]
大型言語モデル(LLM)における推論能力を高める重要なメカニズムとして、Chain-of-Thought(CoT)が登場した。
LLMの推論能力を高めるために,多数決による多言語推論経路を統合した言語間整合性(CLC)フレームワークを提案する。
CMATHデータセットの実証評価により、従来の自己整合性法よりもCLCの方が優れていることが明らかになった。
論文 参考訳(メタデータ) (2025-04-02T16:09:39Z) - Assessing Agentic Large Language Models in Multilingual National Bias [31.67058518564021]
推論に基づくレコメンデーションにおける言語間の格差はほとんど未解明のままである。
この研究は、このギャップに最初に対処する。
複数の言語にわたる意思決定タスクに対する応答を解析することにより、最先端のLLMにおける多言語バイアスについて検討する。
論文 参考訳(メタデータ) (2025-02-25T08:07:42Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。