論文の概要: Thinking on the Fly: Test-Time Reasoning Enhancement via Latent Thought Policy Optimization
- arxiv url: http://arxiv.org/abs/2510.04182v1
- Date: Sun, 05 Oct 2025 12:50:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.50342
- Title: Thinking on the Fly: Test-Time Reasoning Enhancement via Latent Thought Policy Optimization
- Title(参考訳): フライトを考える: 潜在思想政策最適化によるテスト時間推論の強化
- Authors: Wengao Ye, Yan Liang, Lianlei Shan,
- Abstract要約: Latent Thought Policy Optimizationは、LLM推論を完全にテスト時に強化する。
実験により、LTPOは標準タスクの強いベースラインに適合または超えるだけでなく、他のタスクが失敗する際、顕著な堅牢性を示すことが示された。
とりわけ、既存の遅延推論ベースラインがほぼゼロに近い精度に崩壊する非常に難しいAIMEベンチマークでは、LTPOが大幅に改善されている。
- 参考スコア(独自算出の注目度): 5.674809920704963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Large Language Models (LLMs) have shifted from explicit Chain-of-Thought (CoT) reasoning to more efficient latent reasoning, where intermediate thoughts are represented as vectors rather than text. However, latent reasoning can be brittle on challenging, out-of-distribution tasks where robust reasoning is most critical. To overcome these limitations, we introduce Latent Thought Policy Optimization (LTPO), a parameter-free framework that enhances LLM reasoning entirely at test time, without requiring model parameter updates. LTPO treats intermediate latent "thought" vectors as dynamic parameters that are actively optimized for each problem instance. It employs an online policy gradient method guided by an intrinsic, confidence-based reward signal computed directly from the frozen LLM's own output distributions, eliminating the need for external supervision or expensive text generation during optimization. Extensive experiments on five reasoning benchmarks show that LTPO not only matches or surpasses strong baselines on standard tasks but also demonstrates remarkable robustness where others fail. Most notably, on highly challenging AIME benchmarks where existing latent reasoning baselines collapse to near-zero accuracy, LTPO delivers substantial improvements, showcasing a unique capability for complex reasoning.
- Abstract(参考訳): 近年のLarge Language Models (LLMs) の進歩は、明示的なChain-of-Thought (CoT) 推論からより効率的な潜在推論へと移行し、中間思考はテキストではなくベクトルとして表現されるようになった。
しかし、頑健な推論が最重要となる、難解で非分配的なタスクに対して、潜伏推論は脆弱である可能性がある。
これらの制限を克服するために、モデルパラメータ更新を必要とせず、LLM推論を完全に拡張するパラメータフリーフレームワークであるLTPO(Latent Thought Policy Optimization)を導入する。
LTPOは、各問題インスタンスに積極的に最適化される動的パラメータとして、中間潜伏ベクトルを扱います。
凍結したLCMの出力分布から直接計算される本質的な信頼性に基づく報酬信号によって誘導されるオンラインポリシー勾配法を採用しており、最適化中に外部の監視や高価なテキスト生成を不要にしている。
5つの推論ベンチマークの大規模な実験は、LTPOが標準タスクの強いベースラインに適合または超えるだけでなく、他のタスクが失敗する際、顕著な堅牢性を示すことを示している。
とりわけ、既存の遅延推論ベースラインがほぼゼロに近い精度に崩壊する高度に挑戦的なAIMEベンチマークでは、LTPOは大幅に改善され、複雑な推論にユニークな機能を示している。
関連論文リスト
- HiPO: Hybrid Policy Optimization for Dynamic Reasoning in LLMs [54.16300997612526]
大規模言語モデル(LLM)は、複雑なタスクの正確性を改善するために、チェーン・オブ・シント(CoT)推論にますます依存している。
本稿では適応推論制御のフレームワークであるHybrid Policy Optimization(HiPO)を紹介する。
数学とコーディングベンチマークによる実験は、HiPOがトークン長を大幅に削減し、正確性を維持したり改善したりすることを示した。
論文 参考訳(メタデータ) (2025-09-28T16:46:12Z) - Reasoning with Preference Constraints: A Benchmark for Language Models in Many-to-One Matching Markets [13.111181135818184]
大規模言語モデル (LLM) は、最適化を含む複雑な数学的タスクにおいて強い性能を示している。
優先的かつ構造的な制約の下で推論を必要とする問題にLLMを適用することは、まだ未定である。
我々は,大学入学問題の369件の新たなベンチマークを用いて,実用性,安定性,最適性といった重要な次元にわたるLSMを評価する。
論文 参考訳(メタデータ) (2025-09-16T14:48:46Z) - Implicit Reasoning in Large Language Models: A Comprehensive Survey [67.53966514728383]
大規模言語モデル(LLM)は、幅広いタスクにまたがる強力な一般化を実証している。
最近の研究は、暗黙の推論に拍車をかけた、明示的な思考の連鎖から注意を向けている。
本調査では,表現形式から計算戦略へ焦点を移し,実行パラダイムを中心とした分類を紹介した。
論文 参考訳(メタデータ) (2025-09-02T14:16:02Z) - POT: Inducing Overthinking in LLMs via Black-Box Iterative Optimization [28.771942726400084]
我々は,ブラックボックス攻撃フレームワークのPOT(Prompt-Only OverThinking)を提案する。
PoTは他の方法に比べて優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-08-23T16:27:42Z) - Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。
本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。
IB対応推論最適化(IBRO)を提案する。
論文 参考訳(メタデータ) (2025-07-24T13:14:25Z) - Hybrid Latent Reasoning via Reinforcement Learning [51.06635386903026]
大規模言語モデル(LLM)の能力を活用した強化学習(RL)による潜時推論について検討する。
RLをベースとしたハイブリッド潜在推論手法であるハイブリッド推論ポリシー最適化(HRPO)を導入する。
HRPOで訓練されたLLMは解釈可能であり、言語横断パターンや短い完了長といった興味深い挙動を示す。
論文 参考訳(メタデータ) (2025-05-24T01:26:16Z) - SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.28847964704554]
CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。
LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。