論文の概要: Emergent Search and Backtracking in Latent Reasoning Models
- arxiv url: http://arxiv.org/abs/2602.08100v1
- Date: Sun, 08 Feb 2026 19:44:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.981971
- Title: Emergent Search and Backtracking in Latent Reasoning Models
- Title(参考訳): 潜在推論モデルにおける創発的探索とバックトラッキング
- Authors: Jasmine Cui, Charles Ye,
- Abstract要約: モデルが潜在空間における構造化された探索過程を自然に学習することを発見した。
潜在推論モデルは、単語を通して思考の連鎖が達成するものを活性化空間で達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: What happens when a language model thinks without words? Standard reasoning LLMs verbalize intermediate steps as chain-of-thought; latent reasoning transformers (LRTs) instead perform deliberation entirely in continuous hidden space. We investigate an LRT, decoding the model's evolving beliefs at every step on a multiple-choice QA benchmark. We find that the model spontaneously learns a structured search process in latent space. Deliberation follows a consistent trajectory: an exploration phase where probability mass spreads across candidates, tentative commitment to a frontrunner, and either convergence or backtracking. Backtracking is prevalent (32% of instances), beneficial (34% accuracy gain over non-backtracking instances), and predominantly directed away from the semantically closest distractor toward the correct answer. The search is adaptive: replacing distractors with implausible alternatives shortens exploration by 54%. Latent reasoning models achieve in activation space what chain-of-thought achieves through words: the ability to be wrong, notice, and recover.
- Abstract(参考訳): 言語モデルが言葉なしで考えるとどうなるか?
標準推論 LLM は中間段階を思考の連鎖として言語化し、潜在推論変換器 (LRT) は代わりに、完全に連続的な隠れ空間で議論を行う。
マルチチョイスQAベンチマークのすべてのステップにおいて、モデルの進化する信念を復号化して、LRTを調査する。
モデルが潜在空間における構造化された探索過程を自然に学習することを発見した。
議論は一貫した軌道を辿る: 確率質量が候補にまたがる探索段階、予備的なフロントランナーへのコミットメント、収束またはバックトラックのどちらかである。
バックトラッキングは、インスタンスの32%、非バックトラッキングインスタンスよりも有益(34%の精度向上)、そして主に、セマンティックに最も近いインタラプタから正しい回答へと向けられている。
サーチは適応的であり、邪魔者を不愉快な代替品に置き換えることで、探索を54%短縮する。
潜在推論モデルは、誤ったこと、注意し、回復する能力という単語を通じて、思考の連鎖が達成するものを活性化空間で達成する。
関連論文リスト
- Probing the Trajectories of Reasoning Traces in Large Language Models [4.599673637363014]
本研究では,大規模言語モデルにおける推論トレースの軌跡を探索するプロトコルを提案する。
得られた推論トークンの比率が大きくなるにつれて、精度と決定のコミットメントが一貫して増加することが分かっています。
軌道探索が推論モデルのより効率的かつ安全な展開のための診断を提供することを示す。
論文 参考訳(メタデータ) (2026-01-30T16:45:16Z) - Neural Chain-of-Thought Search: Searching the Optimal Reasoning Path to Enhance Large Language Models [61.55758048622473]
最適思考戦略の動的探索として推論を再構成するフレームワークであるNeural Chain-of-Thought Search (NCoTS)を導入する。
解空間を定量的に特徴づけることで、標準出力よりも正確かつ簡潔なスパース優良推論経路の存在を明らかにする。
論文 参考訳(メタデータ) (2026-01-16T14:38:18Z) - Knowing the Answer Isn't Enough: Fixing Reasoning Path Failures in LVLMs [85.37131922131657]
我々はLVLM(Large Vision-Language Models)の重大な欠陥を明らかにした。
これらのモデルが正しい答えを知っていても、誤った推論経路を通じて頻繁にそこに到達します。
PSO(Path-Select Optimization)は,既存のLVLMの推論性能と安定性を両立させる2段階のポストトレーニングフレームワークである。
論文 参考訳(メタデータ) (2025-12-06T03:02:55Z) - Latent Chain-of-Thought? Decoding the Depth-Recurrent Transformer [0.8738725605667471]
CoT(Chain-of- Thought)推論は、トランスフォーマーベースの言語モデルで複雑な数学や多段階計画に優れる。
標準的なデコーダのみのアーキテクチャでは、これらの推論ステップは自然言語で外部化され、効率を犠牲にして解釈性を向上させる。
パラメータ数の増加を伴わずに推論時に層を再利用する深度再帰変換器である Huginn-3.5B にそのような推論構造が出現するかどうかを検討する。
論文 参考訳(メタデータ) (2025-07-02T23:35:21Z) - Socratic-MCTS: Test-Time Visual Reasoning by Asking the Right Questions [100.41062461003389]
フラーミング推論は,断片化された知識間の「点の接続」をモデルが支援し,非推論モデルにおいて拡張された推論トレースを生成することを示す。
提案手法を3つのベンチマークで評価し,一貫した改善点を観察する。
論文 参考訳(メタデータ) (2025-06-10T15:51:16Z) - Training Large Language Models to Reason in a Continuous Latent Space [71.0274000348354]
我々は、言語を超えた推論の可能性を探るため、Coconut (Chain of Continuous Thought)と呼ばれる新しいパラダイムを導入します。
この状態を単語に復号するのではなく、連続した空間に直接埋め込む次の入力としてモデルにフィードバックします。
この潜在的推論パラダイムは、継続的思考が複数の代替の次のステップをエンコードできる高度な推論パターンを可能にする。
論文 参考訳(メタデータ) (2024-12-09T18:55:56Z) - Deceptive Semantic Shortcuts on Reasoning Chains: How Far Can Models Go without Hallucination? [73.454943870226]
本研究はセマンティックアソシエーションによって誘発される特定の種類の幻覚の研究である。
この現象を定量化するために,EureQAと呼ばれる新しい探索手法とベンチマークを提案する。
論文 参考訳(メタデータ) (2023-11-16T09:27:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。