論文の概要: SeLaR: Selective Latent Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2604.08299v1
- Date: Thu, 09 Apr 2026 14:32:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.966871
- Title: SeLaR: Selective Latent Reasoning in Large Language Models
- Title(参考訳): SeLaR: 大規模言語モデルにおける選択的潜在推論
- Authors: Renyu Fu, Guibo Luo,
- Abstract要約: CoT(Chain-of-Thought)は、大規模言語モデルにおける推論の基盤となっている。
最近の潜在的推論手法は、離散トークンをソフト埋め込みに置き換えることで、この制限を緩和しようとする。
潜在推論のための軽量かつトレーニング不要なフレームワークであるSeLaRを提案する。
- 参考スコア(独自算出の注目度): 5.837876642209202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-Thought (CoT) has become a cornerstone of reasoning in large language models, yet its effectiveness is constrained by the limited expressiveness of discrete token sampling. Recent latent reasoning approaches attempt to alleviate this limitation by replacing discrete tokens with soft embeddings (probability-weighted mixtures of token embeddings) or hidden states, but they commonly suffer from two issues: (1) global activation injects perturbations into high-confidence steps, impairing reasoning stability; and (2) soft embeddings quickly collapse toward the highest-probability token, limiting exploration of alternative trajectories. To address these challenges, we propose SeLaR (Selective Latent Reasoning), a lightweight and training-free framework. SeLaR introduces an entropy-gated mechanism that activates soft embeddings only at low-confidence steps, while preserving discrete decoding at high-confidence steps. Additionally, we propose an entropy-aware contrastive regularization that pushes soft embeddings away from the dominant (highest-probability) token's direction, encouraging sustained exploration of multiple latent reasoning paths. Experiments on five reasoning benchmarks demonstrate that SeLaR consistently outperforms standard CoT and state-of-the-art training-free methods.
- Abstract(参考訳): CoT(Chain-of-Thought)は、大規模言語モデルにおける推論の基盤となっているが、その効果は離散トークンサンプリングの限定的な表現性によって制限されている。
最近の潜在的推論手法は、離散トークンをソフトな埋め込み(確率重み付けされたトークン埋め込み)や隠れ状態に置き換えることによってこの制限を緩和しようとするが、それらは一般的に、(1)大域的活性化が高信頼度ステップに摂動を注入し、(2)ソフトな埋め込みは高い確率トークンに向かって急速に崩壊し、代替軌道の探索を制限するという2つの問題に悩まされる。
これらの課題に対処するために、軽量でトレーニング不要なフレームワークであるSeLaR(Selective Latent Reasoning)を提案する。
SeLaRは、低信頼ステップでのみソフト埋め込みを活性化するエントロピーゲート機構を導入し、高信頼ステップで離散デコーディングを保存する。
さらに,ソフト埋め込みを支配的(高い確率)トークンの方向から遠ざけるエントロピー対応のコントラスト正規化を提案し,複数の遅延推論経路の持続的探索を奨励する。
5つの推論ベンチマークの実験により、SeLaRは標準のCoTと最先端のトレーニングフリーメソッドを一貫して上回っていることが示された。
関連論文リスト
- SPOT: Span-level Pause-of-Thought for Efficient and Interpretable Latent Reasoning in Large Language Models [15.95627037350657]
CoT (Explicit Chain-of-Thought) 計算はトークンレベルのトレースを内部化することによって高い推論コストを発生させる。
固定応答テンプレートを強制せずに、明示的なCoTをコンパクトなポーズトークンに圧縮するフレキシブルなフレームワークであるSPOTを提案する。
推論ベンチマークの実験では、SPOTは生成したトークンを37.5%削減しながら、平均2.3ポイントの精度を向上している。
論文 参考訳(メタデータ) (2026-03-06T12:34:27Z) - Latent Thoughts Tuning: Bridging Context and Reasoning with Fused Information in Latent Tokens [13.653741247835091]
Latent Thoughts Tuning(LT-Tuning)は、潜在思想の構築とデプロイ方法を再定義するフレームワークである。
本研究では,コンテキスト隠蔽状態と予測意味指導を協調的に活用するコンテキスト予測融合機構を提案する。
提案手法は,既存の潜在推論ベースラインより優れ,機能崩壊を効果的に軽減し,頑健な推論精度を実現する。
論文 参考訳(メタデータ) (2026-02-10T19:19:10Z) - Latent-Space Contrastive Reinforcement Learning for Stable and Efficient LLM Reasoning [16.244366307890832]
textbfDeepLatent Reasoning(DLR)を提案する。
このフレームワークは、試行錯誤コストを、高価なトークンレベルのフルシーケンス生成から連続潜在多様体へシフトさせる。
実験により、DLRはより安定した訓練収束を実現し、より長い水平推論チェーンをサポートし、推論能力の持続的な蓄積を促進することが示されている。
論文 参考訳(メタデータ) (2026-01-24T03:18:22Z) - Efficient Thought Space Exploration through Strategic Intervention [54.35208611253168]
本稿では,この知見を2つの相乗的コンポーネントを通して操作するHint-Practice Reasoning(HPR)フレームワークを提案する。
フレームワークの中核となる革新は、動的に介入点を識別する分散不整合低減(DIR)である。
算術的および常識的推論ベンチマークによる実験は、HPRの最先端の効率-精度トレードオフを実証している。
論文 参考訳(メタデータ) (2025-11-13T07:26:01Z) - Think Consistently, Reason Efficiently: Energy-Based Calibration for Implicit Chain-of-Thought [33.267497114389734]
大規模言語モデル(LLM)は、emphChain-of-Thought(CoT)のプロンプトを通じて、強力な推論能力を示している。
CoT法は離散トークンレベルの推論プロセスに依存しており、誤りの伝播が難しく、語彙によって制限される。
EBM-CoT(Energy-based Chain-of-Thought)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-10T14:10:58Z) - Latent Chain-of-Thought for Visual Reasoning [53.541579327424046]
大型視覚言語モデル(LVLM)の解釈可能性および信頼性向上には,チェーン・オブ・シント(CoT)推論が不可欠である
我々は,LVLMにおける推論を後部推論として再構成し,償却変分推論に基づくスケーラブルなトレーニングアルゴリズムを提案する。
提案手法は,7つの推論ベンチマークにおいて,最先端のLVLMを強化することを実証的に実証する。
論文 参考訳(メタデータ) (2025-10-27T23:10:06Z) - Latent Reasoning in LLMs as a Vocabulary-Space Superposition [80.01651003144282]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット・プロンプトによる強力な推論能力を示すが、明示的な推論は計算上のオーバーヘッドを大幅に引き起こす。
遅延推論に関する最近の研究は、明示的な監督なしに遅延空間を推論することでコストを削減するが、性能は著しく低下する。
この問題に対処するため、LLM語彙の列空間に潜伏空間を制限し、潜伏推論を語彙確率の重ね合わせとして扱う。
後続の推論が終わると、それは最終的な答えを得るために明確な推論の固有状態に崩壊する。
Latent-SFTはGSM8kに新しい状態を設定し、明示的に一致する
論文 参考訳(メタデータ) (2025-10-17T10:51:20Z) - SwiReasoning: Switch-Thinking in Latent and Explicit for Pareto-Superior Reasoning LLMs [18.427352953242792]
SwiReasoningは、大規模言語モデル(LLM)推論のためのトレーニング不要のフレームワークである。
次点分布のエントロピー傾向から推定されるブロックワイド信頼によって導かれる明示的推論と潜在的推論を切り替える。
平均精度を1.5%-2.8%改善し、異なるモデルファミリーとスケールのLCMを推論する。
論文 参考訳(メタデータ) (2025-10-06T17:46:34Z) - ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [74.37307916314407]
提案するフレームワークはConciseHintと呼ばれ,推論モデルが簡潔に話すことを継続的に奨励する。
DeepSeek-R1 および Qwen-3 シリーズを含む最先端の LRM 実験により,本手法が簡潔な推論を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z) - Soft Thinking: Unlocking the Reasoning Potential of LLMs in Continuous Concept Space [62.54887038032942]
ソフトシンキング(Soft Thinking)は、ソフトで抽象的な概念トークンを生成することによって、人間のような「ソフト」推論をエミュレートする訓練不要な手法である。
これらの概念トークンは、連続的な概念空間を形成するトークン埋め込みの確率重み付き混合によって生成される。
本質的に、生成された概念トークンは関連する離散トークンから複数の意味をカプセル化し、暗黙的に様々な推論経路を探索する。
論文 参考訳(メタデータ) (2025-05-21T17:29:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。