論文の概要: Thoughts-as-Planning: Latent World Models for Chain-of-Thoughts Optimization via Reinforcement Planning
- arxiv url: http://arxiv.org/abs/2605.28842v1
- Date: Mon, 27 Apr 2026 08:18:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 02:55:43.031828
- Title: Thoughts-as-Planning: Latent World Models for Chain-of-Thoughts Optimization via Reinforcement Planning
- Title(参考訳): 思考と計画:強化計画による思考の連鎖最適化のための潜在世界モデル
- Authors: Dong Liu, Yanxuan Yu, Ying Nian Wu,
- Abstract要約: Thoughts-as-Planningは、シーケンシャルな意思決定プロセスとして推論チェーン最適化を形式化する新しいフレームワークである。
本手法はマルチスケールの抽象化をサポートし,トークン,セグメント,命令レベルでの推論チェーンの編集を統一プランナに統合する。
- 参考スコア(独自算出の注目度): 40.65153547415224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The success of large language models (LLMs) across diverse NLP tasks has elevated the importance of reasoning chain optimization as a critical step in aligning model behavior with task objectives. Existing reasoning chain tuning methods often rely on black-box heuristics or gradient-free search, which lack interpretability, generalization, and sample efficiency. In this work, we introduce \textbf{Thoughts-as-Planning}, a novel framework that formalizes reasoning chain optimization as a sequential decision-making process over a latent semantic space. We model the LLM as a partially observable environment and learn a latent world model that simulates the effect of reasoning chain edits on downstream outputs. A proximity-preserving embedding space is constructed to encode reasoning chain-response dynamics, enabling planning via gradient descent or reinforcement learning. Our method supports multi-scale abstraction, allowing reasoning chain edits at token, segment, and instruction levels to be integrated into a unified planner. Through extensive experiments on language understanding and generation tasks, we demonstrate that Thoughts-as-Planning outperforms state-of-the-art reasoning chain tuning baselines in efficiency, robustness, and generalization, while offering interpretability through its structured planning trajectory. Our code is available at https://github.com/FastLM/Thoughts-as-Planning.
- Abstract(参考訳): 多様なNLPタスクにおける大規模言語モデル(LLM)の成功は、モデル行動とタスク目標を整合させる重要なステップとして、推論チェーン最適化の重要性を高めている。
既存の推論連鎖チューニング手法は、解釈可能性、一般化、サンプル効率に欠けるブラックボックスのヒューリスティックや勾配のない探索に依存していることが多い。
本稿では,推論連鎖最適化を潜在意味空間上の逐次決定過程として定式化する新しいフレームワークである「textbf{Thoughts-as-Planning}」を紹介する。
我々はLLMを部分的に観測可能な環境としてモデル化し、下流出力に対する推論チェーン編集の効果をシミュレートする潜在世界モデルを学ぶ。
近接保存埋め込み空間を構築し、推論連鎖応答ダイナミクスを符号化し、勾配降下や強化学習による計画立案を可能にする。
本手法はマルチスケールの抽象化をサポートし,トークン,セグメント,命令レベルでの推論チェーンの編集を統一プランナに統合する。
言語理解と生成タスクに関する広範な実験を通じて、Thoughts-as-Planningは、その構造化された計画軌道を通して解釈可能性を提供しながら、効率、堅牢性、一般化において最先端の推論チェーンチューニングベースラインより優れていることを示した。
私たちのコードはhttps://github.com/FastLM/Thoughts-as-Planning.comで公開されています。
関連論文リスト
- iCLP: Large Language Model Reasoning with Implicit Cognition Latent Planning [28.763018368302117]
大規模言語モデル(LLM)は、問題解決において、信頼性の高いステップバイステップ推論を行うことができる。
幻覚が原因で 正確な 効果的なテキストプランを作成することは 困難です
LLMが適応的に潜在計画を生成するための新しいフレームワークiCLPを提案する。
論文 参考訳(メタデータ) (2025-12-30T06:19:04Z) - Teaching LLMs to Plan: Logical Chain-of-Thought Instruction Tuning for Symbolic Planning [23.185497225384207]
大規模言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、構造化されたシンボリックプランニングを実行する能力はまだ限られている。
論理的連鎖推論によりLLMのシンボリックプランニング能力を高めるために設計された新しい命令チューニングフレームワークPDDL-Instructを提案する。
論文 参考訳(メタデータ) (2025-09-14T02:42:34Z) - Implicit Reasoning in Large Language Models: A Comprehensive Survey [67.53966514728383]
大規模言語モデル(LLM)は、幅広いタスクにまたがる強力な一般化を実証している。
最近の研究は、暗黙の推論に拍車をかけた、明示的な思考の連鎖から注意を向けている。
本調査では,表現形式から計算戦略へ焦点を移し,実行パラダイムを中心とした分類を紹介した。
論文 参考訳(メタデータ) (2025-09-02T14:16:02Z) - CRISP: Complex Reasoning with Interpretable Step-based Plans [15.656686375199921]
数学的推論とコード生成のための高レベルプランのデータセットであるCRISP(Complex Reasoning with Interpretable Step-based Plans)を紹介する。
CRISP上で小さなモデルを微調整することで、より大規模なモデルよりも高品質なプランを少数ショットプロンプトで作成できることを実証する。
論文 参考訳(メタデータ) (2025-07-09T11:40:24Z) - Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。
CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。
反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2024-09-19T04:13:58Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - Guiding Language Model Reasoning with Planning Tokens [122.43639723387516]
大規模言語モデル(LLM)は、最近、複雑な推論タスクを実行する能力に対して、かなりの関心を集めている。
より構造的なチェーン・オブ・シークレット・ステップの創出を促す階層的な生成手法を提案する。
提案手法では、トレーニング可能なパラメータ(0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
論文 参考訳(メタデータ) (2023-10-09T13:29:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。