論文の概要: Eliciting Chain-of-Thought in Base LLMs via Gradient-Based Representation Optimization
- arxiv url: http://arxiv.org/abs/2511.19131v1
- Date: Mon, 24 Nov 2025 13:55:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.237798
- Title: Eliciting Chain-of-Thought in Base LLMs via Gradient-Based Representation Optimization
- Title(参考訳): Gradient-Based Representation Optimization によるLLMの整合化
- Authors: Zijian Wang, Yanxiang Ma, Chang Xu,
- Abstract要約: Chain-of-Thought (CoT)推論は、大規模言語モデル(LLM)にとって重要な機能である。
そこで本研究では, 条件付き状態操作により, ベースLLMからElic-Iting CoTを推論する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 22.301471821413816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-Thought (CoT) reasoning is a critical capability for large language models (LLMs), enabling them to tackle com- plex multi-step tasks. While base LLMs, pre-trained on general text corpora, often struggle with reasoning due to a lack of specialized training, recent studies reveal their latent reason- ing potential tied to hidden states. However, existing hidden state manipulation methods, such as linear activation steering, suffer from limitations due to their rigid and unconstrained nature, often leading to distribution shifts and degraded text quality. In this work, we propose a novel approach for elic- iting CoT reasoning from base LLMs through hidden state manipulation grounded in probabilistic conditional generation. By reformulating the challenge as an optimization problem with a balanced likelihood and prior regularization framework, our method guides hidden states toward reasoning-oriented trajectories while preserving linguistic coherence. Extensive evaluations across mathematical, commonsense, and logical reasoning benchmarks demonstrate that our approach con- sistently outperforms existing steering methods, offering a theoretically principled and effective solution for enhancing reasoning capabilities in base LLMs.
- Abstract(参考訳): CoT(Chain-of-Thought)推論は、大規模な言語モデル(LLM)にとって重要な機能であり、コンプレックスなマルチステップタスクに対処することができる。
一般的なテキストコーパスで事前訓練されたLLMは、専門的な訓練の欠如により推論に苦慮することが多いが、最近の研究では、隠れた状態に結びつく潜在的な理由付けの可能性を明らかにしている。
しかし、リニアアクティベーションステアリングのような既存の隠れ状態操作手法は、厳密で制約のない性質のために制限に悩まされ、しばしば分散シフトや劣化したテキスト品質につながる。
本研究では,確率的条件生成に基づく隠れ状態操作により,ベースLLMからエリルイットCoTを推論する新しい手法を提案する。
バランスの取れた確率と事前正規化の枠組みによる最適化問題として,本手法は,言語コヒーレンスを維持しつつ,推論指向の軌道に隠れた状態を導出する。
数学的,常識的,論理的推論のベンチマークによる広範囲な評価は,我々のアプローチが既存のステアリング手法を忠実に上回り,理論上は理論上原理的かつ効果的に基礎LLMの推論能力を高めるソリューションを提供することを示している。
関連論文リスト
- Latent Chain-of-Thought for Visual Reasoning [53.541579327424046]
大型視覚言語モデル(LVLM)の解釈可能性および信頼性向上には,チェーン・オブ・シント(CoT)推論が不可欠である
我々は,LVLMにおける推論を後部推論として再構成し,償却変分推論に基づくスケーラブルなトレーニングアルゴリズムを提案する。
提案手法は,7つの推論ベンチマークにおいて,最先端のLVLMを強化することを実証的に実証する。
論文 参考訳(メタデータ) (2025-10-27T23:10:06Z) - Thinking on the Fly: Test-Time Reasoning Enhancement via Latent Thought Policy Optimization [5.674809920704963]
Latent Thought Policy Optimizationは、LLM推論を完全にテスト時に強化する。
実験により、LTPOは標準タスクの強いベースラインに適合または超えるだけでなく、他のタスクが失敗する際、顕著な堅牢性を示すことが示された。
とりわけ、既存の遅延推論ベースラインがほぼゼロに近い精度に崩壊する非常に難しいAIMEベンチマークでは、LTPOが大幅に改善されている。
論文 参考訳(メタデータ) (2025-10-05T12:50:39Z) - Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。
本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。
IB対応推論最適化(IBRO)を提案する。
論文 参考訳(メタデータ) (2025-07-24T13:14:25Z) - CTRLS: Chain-of-Thought Reasoning via Latent State-Transition [57.51370433303236]
チェーン・オブ・シント(CoT)推論は、大規模な言語モデルで複雑な問題を解釈可能な中間ステップに分解することを可能にする。
我々は,遅延状態遷移を伴うマルコフ決定プロセス(MDP)としてCoT推論を定式化するフレームワークであるgroundingSを紹介する。
我々は、ベンチマーク推論タスクにおける推論精度、多様性、探索効率の改善を示す。
論文 参考訳(メタデータ) (2025-07-10T21:32:18Z) - Hybrid Latent Reasoning via Reinforcement Learning [50.6763762323985]
大規模言語モデル(LLM)の能力を活用した強化学習(RL)による潜時推論について検討する。
RLをベースとしたハイブリッド潜在推論手法であるハイブリッド推論ポリシー最適化(HRPO)を導入する。
HRPOで訓練されたLLMは解釈可能であり、言語横断パターンや短い完了長といった興味深い挙動を示す。
論文 参考訳(メタデータ) (2025-05-24T01:26:16Z) - SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.28847964704554]
CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。
LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。