論文の概要: PILOT: Planning via Internalized Latent Optimization Trajectories for Large Language Models
- arxiv url: http://arxiv.org/abs/2601.19917v1
- Date: Wed, 07 Jan 2026 12:38:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 02:21:38.533711
- Title: PILOT: Planning via Internalized Latent Optimization Trajectories for Large Language Models
- Title(参考訳): PILOT:大規模言語モデルのための内部化潜在最適化軌道による計画
- Authors: Haoyu Zheng, Yun Zhu, Yuqian Yuan, Bo Yuan, Wenqiao Zhang, Siliang Tang, Jun Xiao,
- Abstract要約: 大規模言語モデル(LLM)は、しばしばグローバル戦略を定式化する能力に欠けており、長い水平タスクにおけるエラーの伝播につながる。
PILOTは,大規模モデルの戦略的監視を本質的な潜伏誘導に内部化するためのフレームワークである。
- 参考スコア(独自算出の注目度): 51.43746425777865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Strategic planning is critical for multi-step reasoning, yet compact Large Language Models (LLMs) often lack the capacity to formulate global strategies, leading to error propagation in long-horizon tasks. Our analysis reveals that LLMs possess latent reasoning capabilities that can be unlocked when conditioned on explicit plans from a teacher model; however, runtime reliance on external guidance is often impractical due to latency and availability constraints. To bridge this gap, we propose PILOT (Planning via Internalized Latent Optimization Trajectories), a non-invasive framework designed to internalize the strategic oversight of large models into intrinsic Latent Guidance. Instead of altering backbone weights, PILOT employs a lightweight Hyper-Network to synthesize a query-conditioned Latent Guidance vector. This vector acts as an internal steering mechanism, guiding the model's representations toward optimal reasoning paths. Extensive experiments on mathematical and coding benchmarks demonstrate that PILOT effectively stabilizes reasoning trajectories, consistently outperforming strong baselines (e.g., +8.9% on MATH500) with negligible inference latency.
- Abstract(参考訳): 戦略計画は多段階推論において重要であるが、コンパクトな大言語モデル (LLM) はしばしばグローバル戦略を定式化する能力に欠けており、長い水平タスクにおける誤りの伝播につながる。
分析の結果,LLMは教師モデルからの明示的なプランで条件付きでアンロックできる潜在的推論能力を持っていることがわかったが,遅延や可用性の制約により,外部ガイダンスによる実行時依存は現実的ではないことが判明した。
このギャップを埋めるために,大規模モデルの戦略的監視を本質的な潜在誘導に内部化するための非侵襲的フレームワークであるPILOT(Planning via Internalized Latent Optimization Trajectories)を提案する。
バックボーンの重みを変更する代わりに、PILOTは軽量なHyper-Networkを使用してクエリ条件の遅延ガイダンスベクトルを合成する。
このベクトルは内部の操舵機構として機能し、モデルの表現を最適な推論経路へと導く。
数学とコーディングのベンチマークに関する大規模な実験は、PILOTが推論軌道を効果的に安定化し、強いベースライン(例えばMATH500では+8.9%)を無視できない推論遅延で一貫して上回っていることを示した。
関連論文リスト
- HeroBench: A Benchmark for Long-Horizon Planning and Structured Reasoning in Virtual Worlds [0.0]
大規模言語モデル(LLM)は、数学やプログラミングのようなステップバイステップの推論タスクにおいて顕著な能力を示している。
しかし、ソリューションが拡張され、構造化された相互依存的なアクションのシーケンスを必要とする長期計画におけるそれらの習熟度は、まだ未解明のままである。
我々は,RPGにインスパイアされた複雑な仮想世界において,長期計画と構造化推論を評価するために設計された新しいベンチマークであるHeroBenchを紹介する。
論文 参考訳(メタデータ) (2025-08-18T09:59:02Z) - Reinforced Reasoning for Embodied Planning [18.40186665383579]
身体的計画では、エージェントは動的視覚観察と自然言語の目標に基づいて、一貫性のある多段階決定を行う必要がある。
具体的計画にR1スタイルの推論強化をもたらす強化微調整フレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-28T07:21:37Z) - Beyond Templates: Dynamic Adaptation of Reasoning Demonstrations via Feasibility-Aware Exploration [15.711365331854614]
本稿では,新しいデータ適応フレームワークである動的推論軌道(DART)について紹介する。
専門家のステップを均一に模倣する代わりに、DARTはステップワイド適応性推定によって導かれる選択的な模倣戦略を採用している。
我々は、DARTを複数の推論ベンチマークとモデルスケールで検証し、一般化とデータ効率を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-05-27T04:08:11Z) - Latent Diffusion Planning for Imitation Learning [78.56207566743154]
Latent Diffusion Planning (LDP) は、プランナーと逆ダイナミクスモデルからなるモジュラーアプローチである。
行動予測からプランニングを分離することにより、LDPは最適なデータと行動自由データのより密集した監視信号の恩恵を受けることができる。
シミュレーションされた視覚ロボット操作タスクにおいて、LDPは最先端の模倣学習アプローチより優れている。
論文 参考訳(メタデータ) (2025-04-23T17:53:34Z) - Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [79.2162092822111]
我々は,一連のナビゲーションタスクにおいて,強化学習(RL)と制御に基づく手法を体系的に評価する。
我々は、JEPA(Joint Embedding Predictive Architecture)を使用して、潜在ダイナミクスモデルを使用し、それを計画に使用します。
その結果,モデルベースプランニングではレイアウトが不明瞭になるのに対して,モデルフリーのRLは高品質なデータから恩恵を受けることがわかった。
論文 参考訳(メタデータ) (2025-02-20T18:39:41Z) - Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing [61.98556945939045]
収集された軌道上でのDPO(Direct Preference Optimization)を通して計画に基づく推論を学習するフレームワークを提案する。
論理的推論ベンチマークの挑戦的な結果から,学習フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2024-02-01T15:18:33Z) - LLM-Assist: Enhancing Closed-Loop Planning with Language-Based Reasoning [65.86754998249224]
従来のルールベースプランナとLCMベースのプランナを併用した,新しいハイブリッドプランナを開発した。
当社のアプローチでは,既存のプランナが苦労する複雑なシナリオをナビゲートし,合理的なアウトプットを生成すると同時に,ルールベースのアプローチと連携して作業する。
論文 参考訳(メタデータ) (2023-12-30T02:53:45Z) - Large Trajectory Models are Scalable Motion Predictors and Planners [25.03447801499]
自律走行において、運動予測と計画が不可欠である。
STR(State Transformer)と呼ばれるスケーラブルな軌道モデルを導入する。
STRは、観測、状態、動作を1つの統合シーケンスモデリングタスクにアレンジすることで、動作予測と動作計画の問題を再構成する。
論文 参考訳(メタデータ) (2023-10-30T15:12:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。