論文の概要: Latent Thinking Optimization: Your Latent Reasoning Language Model Secretly Encodes Reward Signals in its Latent Thoughts
- arxiv url: http://arxiv.org/abs/2509.26314v1
- Date: Tue, 30 Sep 2025 14:26:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.163562
- Title: Latent Thinking Optimization: Your Latent Reasoning Language Model Secretly Encodes Reward Signals in its Latent Thoughts
- Title(参考訳): 潜在思考最適化:潜在言語モデルが潜在思考の逆シグナルを秘かにエンコードする
- Authors: Hanwen Du, Yuxin Dong, Xia Ning,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語における思考の連鎖を生成することで問題解決において優れている。
最近の研究は、中間推論ステップを潜在表現のシーケンスとして表現する潜在思考アーキテクチャであるHugin-3.5Bを提案する。
我々は,Hugin-3.5Bが潜伏空間においてどのように考えるか,外部監視信号が潜伏思考プロセスを改善するかを示す。
- 参考スコア(独自算出の注目度): 16.941385792353493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) excel at problem solving by generating chain of thoughts in natural language, but such verbal thinking is computationally costly and prone to overthinking. Recent work instead proposes a latent thinking architecture Huggin-3.5B, which represents intermediate reasoning steps as sequence of latent representations. However, latent thoughts lack interpretability and are difficult to supervise, raising concerns about the correctness and reliability of its latent thinking processes. In this paper, we provide a systematic study of how Huggin-3.5B thinks in the latent space and how external supervision signals can improve its latent thinking processes. We show that latent thoughts leading to correct versus incorrect answers exhibit highly distinguishable patterns, and that a latent classifier can reliably predict answer correctness directly from latent thoughts. Leveraging these insights, we propose Latent Thinking Optimization (LTO), a probabilistic algorithm that employs the latent classifier as a Latent Reward Model (LRM) to optimize the latent thinking processes. Extensive experiments across diverse reasoning tasks demonstrate that LRM is highly effective in detecting incorrect latent thinking patterns, and LTO can significantly improve the latent thinking processes. Furthermore, we show that LRM can generalize across diverse domains, and LTO can be seamlessly applied to general LLMs to improve their thinking processes. In contrast to verbal thinking, our method demonstrates that reward modeling and scaling test-time thinking with supervision can be performed directly in the latent space, highlighting its potential as a general, efficient, and domain-agnostic approach to improving the thinking processes of LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語における思考の連鎖を生成することで問題解決において優れているが、そのような言語思考は計算に費用がかかり、過度に考える傾向にある。
最近の研究は、中間推論ステップを潜在表現のシーケンスとして表現する潜在思考アーキテクチャであるHugin-3.5Bを提案する。
しかし、潜在思考は解釈可能性に欠け、監督が困難であり、その潜在思考過程の正確性や信頼性に関する懸念を提起する。
本稿では,Hugin-3.5Bが潜伏空間においてどのように考えるか,外部監視信号が潜伏思考プロセスを改善するかについて,系統的研究を行う。
正解と誤解を導く潜在的思考は、極めて識別可能なパターンを示し、潜在的分類器は、潜在的思考から直接、正解を確実に予測できることを示す。
これらの知見を生かして,潜在思考過程を最適化する潜在思考モデル (LRM) として潜在分類器を用いる確率論的アルゴリズムである潜在思考最適化 (LTO) を提案する。
多様な推論タスクにわたる広範囲な実験により、LRMは誤った潜在思考パターンの検出に極めて有効であり、LTOは潜在思考プロセスを大幅に改善できることが示された。
さらに, LRMは様々な領域にまたがって一般化可能であり, LTOは一般のLLMにシームレスに適用でき, その思考プロセスを改善することができることを示す。
言語的思考とは対照的に,本手法は,LLMの思考プロセスを改善するための汎用的,効率的,ドメインに依存しないアプローチとして,潜在空間において,報酬モデリングと監視によるテストタイム思考のスケーリングが直接実施可能であることを実証する。
関連論文リスト
- Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.08396797526657]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z) - Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs [86.79757571440082]
OpenAIのo1のような大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示している。
我々は、o1-like LLMがしばしば異なる理性的思考を切り替える、という現象を特定する。
本稿では,思考間の早期移行を回避できる思考切替ペナルティTIPを用いた復号戦略を提案する。
論文 参考訳(メタデータ) (2025-01-30T18:58:18Z) - Table as Thought: Exploring Structured Thoughts in LLM Reasoning [14.901120719649315]
大規模言語モデルの推論能力は、思考過程を整理する手法の恩恵を受ける。
既存のアプローチは、主に思考の順序を整理することに焦点を当て、個々の思考ステップの構造を過小評価している。
人間の思考に関する認知神経科学理論にインスパイアされたフレームワークであるテーブル・アズ・シント(Table as Thought)を提案する。
論文 参考訳(メタデータ) (2025-01-04T00:58:06Z) - Blind Spot Navigation in Large Language Model Reasoning with Thought Space Explorer [35.8785976088927]
大型言語モデル(LLM)のための思考構造の拡張と最適化を行うため、Thought Space Explorer' (TSE)を導入した。
元の思考構造に基づいて新たな推論ステップと分岐を生成することにより、TSEは思考探索の視点を広げ、LSM推論における盲点の影響を軽減する。
論文 参考訳(メタデータ) (2024-10-31T17:12:14Z) - What if...?: Thinking Counterfactual Keywords Helps to Mitigate Hallucination in Large Multi-modal Models [50.97705264224828]
大規模マルチモーダルモデルに反現実的思考を組み込む新しい手法である反現実的インセプションを提案する。
我々は、より広い文脈のシーン理解にまたがる応答をモデルが関与し、生成することを目指している。
オープンソースモデルとプロプライエタリモデルの両方を含む様々なLMMの包括的分析は、反事実的思考が幻覚を著しく減少させることを裏付ける。
論文 参考訳(メタデータ) (2024-03-20T11:27:20Z) - Think Twice: Perspective-Taking Improves Large Language Models'
Theory-of-Mind Capabilities [63.90227161974381]
SimToMは、シミュレーション理論の視点取りの概念にインスパイアされた、新しいプロンプトフレームワークである。
我々のアプローチは、追加のトレーニングや最小限のプロンプトチューニングを必要とせず、既存の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-11-16T22:49:27Z) - Everything of Thoughts: Defying the Law of Penrose Triangle for Thought
Generation [42.472954457731355]
本稿では,既存の思考パラダイムの「ペンローズ三角形」の法則に反する,思考のすべて(XoT)と呼ばれる新しい思考促進手法を紹介する。
XoTは、事前訓練された強化学習とモンテカルロ木探索(MCTS)を活用して、外部ドメイン知識を思考に組み込む。
我々は,ゲーム24,8-Puzzle,Pocket Cubeなど,難解な複数解問題に対するXoTの評価を行った。
論文 参考訳(メタデータ) (2023-11-07T12:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。