論文の概要: ProAct: Agentic Lookahead in Interactive Environments
- arxiv url: http://arxiv.org/abs/2602.05327v1
- Date: Thu, 05 Feb 2026 05:45:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.773676
- Title: ProAct: Agentic Lookahead in Interactive Environments
- Title(参考訳): Proct: 対話型環境におけるエージェントのルックアヘッド
- Authors: Yangbin Yu, Mingyu Yang, Junyou Li, Yiming Gao, Feiyu Liu, Yijun Yang, Zichuan Lin, Jiafei Lyu, Yicheng Liu, Zhicong Lu, Deheng Ye, Jie Jiang,
- Abstract要約: ProActは、2段階のトレーニングパラダイムを通じて、エージェントが正確なルックアヘッド推論を内部化することを可能にするフレームワークである。
そこでは,環境に基づく探索から得られたトラジェクトリの微調整をエージェントが行うGLAD(Grounded LookAhead Distillation)を紹介する。
また,政策段階のアルゴリズムを改良する補助値推定器であるモンテカルロ批判(MC-Critic)を提案する。
- 参考スコア(独自算出の注目度): 56.50613398808361
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing Large Language Model (LLM) agents struggle in interactive environments requiring long-horizon planning, primarily due to compounding errors when simulating future states. To address this, we propose ProAct, a framework that enables agents to internalize accurate lookahead reasoning through a two-stage training paradigm. First, we introduce Grounded LookAhead Distillation (GLAD), where the agent undergoes supervised fine-tuning on trajectories derived from environment-based search. By compressing complex search trees into concise, causal reasoning chains, the agent learns the logic of foresight without the computational overhead of inference-time search. Second, to further refine decision accuracy, we propose the Monte-Carlo Critic (MC-Critic), a plug-and-play auxiliary value estimator designed to enhance policy-gradient algorithms like PPO and GRPO. By leveraging lightweight environment rollouts to calibrate value estimates, MC-Critic provides a low-variance signal that facilitates stable policy optimization without relying on expensive model-based value approximation. Experiments on both stochastic (e.g., 2048) and deterministic (e.g., Sokoban) environments demonstrate that ProAct significantly improves planning accuracy. Notably, a 4B parameter model trained with ProAct outperforms all open-source baselines and rivals state-of-the-art closed-source models, while demonstrating robust generalization to unseen environments. The codes and models are available at https://github.com/GreatX3/ProAct
- Abstract(参考訳): 既存のLarge Language Model (LLM) エージェントは、将来の状態をシミュレートする際のエラーを複雑にするため、長期計画を必要とする対話環境に苦しむ。
そこで本稿では,エージェントが2段階のトレーニングパラダイムを通じて,正確なルックアヘッド推論を内部化するためのフレームワークであるProActを提案する。
まず,環境に基づく探索から得られたトラジェクトリの微調整を行うGLAD(grounded LookAhead Distillation)について紹介する。
複雑な探索木を簡潔で因果推論の連鎖に圧縮することにより、エージェントは推論時探索の計算オーバーヘッドを伴わずにフォアサイト論理を学習する。
第2に,PPO や GRPO などのポリシグレートなアルゴリズムを強化するために設計された,プラグアンドプレイの補助値推定器である Monte-Carlo Critic (MC-Critic) を提案する。
MC-Criticは、軽量環境のロールアウトを利用して価値見積をキャリブレーションすることで、高価なモデルベースの値近似に頼ることなく、安定したポリシー最適化を容易にする低分散信号を提供する。
確率的 (e , 2048) と決定論的 (e , Sokoban) の両方の実験により, ProAct は計画精度を大幅に向上することが示された。
特に、ProActでトレーニングされた4Bパラメータモデルは、すべてのオープンソースベースラインを上回り、最先端のクローズドソースモデルと競合する一方で、目に見えない環境への堅牢な一般化を実証している。
コードとモデルはhttps://github.com/GreatX3/ProActで公開されている。
関連論文リスト
- Reasoning While Asking: Transforming Reasoning Large Language Models from Passive Solvers to Proactive Inquirers [41.58256327940237]
Proactive Interactive Reasoningは、大規模言語モデルからProactive Inquirerに変換する。
PIRは、ユーザと直接対話することで、前提レベルと意図レベルの不確実性を目標とします。
数学的推論、コード生成、文書編集の実験は、PIRが強いベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2026-01-29T18:56:12Z) - Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem [90.17610617854247]
本稿では,エージェントモデルの生産パイプラインを最適化する基盤インフラであるエージェント学習エコシステム(ALE)を紹介する。
ALEは、重量最適化のためのトレーニング後のフレームワークであるROLL、軌道生成のためのサンドボックス環境マネージャであるROCK、効率的なコンテキストエンジニアリングのためのエージェントフレームワークであるiFlow CLIの3つのコンポーネントで構成されている。
ROMEはALEが基盤として100万件以上のトラジェクトリをトレーニングしたオープンソースエージェントです。
論文 参考訳(メタデータ) (2025-12-31T14:03:39Z) - Improving Language Agents through BREW [7.098644778864677]
大規模言語モデル(LLM)ベースのエージェントは、構造化推論、ツールの使用、環境適応を必要とするタスクにますます適用される。
PPOやGRPOのようなモデルウェイト最適化手法の現在の訓練パラダイムは、ロールアウト収束の計算オーバーヘッドが高いため、比較的実用的ではない。
本稿では,下流タスクのエージェント最適化のためのフレームワークであるBREWを紹介する。
論文 参考訳(メタデータ) (2025-11-25T13:34:54Z) - Agentic World Modeling for 6G: Near-Real-Time Generative State-Space Reasoning [70.56067503630486]
第6世代(6G)インテリジェンスは、流動的なトークン予測ではなく、想像と選択の能力を校正している、と我々は主張する。
We showed that WM-MS3M cuts mean absolute error (MAE) by 1.69% vs MS3M with 32% less parameters and similar latency, and achieve a 35-80% lower root mean squared error (RMSE) than attention/hybrid baselines with 2.3-4.1x faster inference。
論文 参考訳(メタデータ) (2025-11-04T17:22:22Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically
for Model-Based RL [50.385005413810084]
ダイナスタイルのモデルベース強化学習には、ポリシー学習と実環境探索のためのサンプルを生成するモデルロールアウトという2つのフェーズが含まれる。
$textttCOPlanner$は、不正確な学習された動的モデル問題に対処するモデルベースのメソッドのための計画駆動フレームワークである。
論文 参考訳(メタデータ) (2023-10-11T06:10:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。