論文の概要: TAPE: Tool-Guided Adaptive Planning and Constrained Execution in Language Model Agents
- arxiv url: http://arxiv.org/abs/2602.19633v1
- Date: Mon, 23 Feb 2026 09:19:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.751866
- Title: TAPE: Tool-Guided Adaptive Planning and Constrained Execution in Language Model Agents
- Title(参考訳): TAPE:言語モデルエージェントにおけるツールガイド型適応計画と制約付き実行
- Authors: Jongwon Jeong, Jungtaek Kim, Kangwook Lee,
- Abstract要約: 制約付き実行(TAPE)を用いたツール誘導適応計画を提案する。
TAPE計画能力は、複数のプランをグラフに集約し、実行可能なパスを特定するために外部ソルバを使用する。
実行中、TAPEは制約付きデコードを使用してサンプリングノイズを低減し、環境フィードバックが意図された状態から逸脱するたびに適応的に再計画する。
- 参考スコア(独自算出の注目度): 16.59223734824801
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Language Model (LM) agents have demonstrated remarkable capabilities in solving tasks that require multiple interactions with the environment. However, they remain vulnerable in environments where a single error often leads to irrecoverable failure, particularly under strict feasibility constraints. We systematically analyze existing agent frameworks, identifying imperfect planning and stochastic execution as the primary causes. To address these challenges, we propose Tool-guided Adaptive Planning with constrained Execution (TAPE). TAPE enhances planning capability by aggregating multiple plans into a graph and employing an external solver to identify a feasible path. During execution, TAPE employs constrained decoding to reduce sampling noise, while adaptively re-planning whenever environmental feedback deviates from the intended state. Experiments across Sokoban, ALFWorld, MuSiQue, and GSM8K-Hard demonstrate that TAPE consistently outperforms existing frameworks, with particularly large gains on hard settings, improving success rates by 21.0 percentage points on hard settings on average, and by 20.0 percentage points for weaker base models on average. Code and data available at here.
- Abstract(参考訳): 言語モデル(LM)エージェントは、環境との複数の相互作用を必要とするタスクを解く際、顕著な能力を示した。
しかしながら、単一エラーが多くの場合、特に厳格な実行可能性制約の下で、発見不可能な失敗につながるような環境では、脆弱なままである。
我々は既存のエージェントフレームワークを体系的に分析し、不完全な計画と確率的実行を主な原因として特定する。
これらの課題に対処するため,制約付き実行型適応計画(TAPE)を提案する。
TAPEは、複数のプランをグラフに集約し、実行可能なパスを特定するために外部ソルバを使用することにより、計画能力を向上させる。
実行中、TAPEは制約付きデコードを使用してサンプリングノイズを低減し、環境フィードバックが意図された状態から逸脱するたびに適応的に再計画する。
Sokoban、ALFWorld、MuSiQue、GSM8K-Hardでの実験では、TAPEが既存のフレームワークを一貫して上回り、特にハードな設定で大きく向上し、平均的なハードな設定で成功率が21.0ポイント向上し、平均より弱いベースモデルでは20.0ポイント向上した。
コードとデータはここにある。
関連論文リスト
- MagicAgent: Towards Generalized Agent Planning [73.21129030631421]
汎用エージェント計画のための基盤モデルである textbfMagicAgent について述べる。
多様な計画タスクにまたがる高品質なトラジェクトリを生成する軽量でスケーラブルな合成データフレームワークを提案する。
実験の結果、MagicAgent-32BとMagicAgent-30B-A3Bは優れた性能を示した。
論文 参考訳(メタデータ) (2026-02-22T01:39:16Z) - TS-DP: Reinforcement Speculative Decoding For Temporal Adaptive Diffusion Policy Acceleration [64.32072516882947]
拡散ポリシーは、具体的制御が優れているが、高い推論遅延と計算コストに悩まされている。
時間認識強化に基づく投機的拡散政策(TS-DP)を提案する。
TS-DPは94%以上のドラフトで最大4.17倍高速な推論を実現し、推論周波数は25Hzに達した。
論文 参考訳(メタデータ) (2025-12-13T07:53:14Z) - Adaptive Neighborhood-Constrained Q Learning for Offline Reinforcement Learning [52.03884701766989]
オフライン強化学習(RL)アルゴリズムは、通常、アクション選択に制約を課す。
本稿では,Bellmanターゲットにおける行動選択を,データセットアクションの近傍の結合に制限する新しい地区制約を提案する。
我々は,この制約を満たす目標動作を用いてQ学習を行うための,単純で効果的なアルゴリズムであるAdaptive Neighborhood-Constrained Q Learning(ANQ)を開発した。
論文 参考訳(メタデータ) (2025-11-04T13:42:05Z) - SDA-PLANNER: State-Dependency Aware Adaptive Planner for Embodied Task Planning [22.01842981739722]
エージェントは環境内のクローズループな方法で実行可能なアクションを生成する必要がある。
我々は,SDA-PLANNERを提案し,適応計画パラダイム,状態依存認識,エラー認識機構を包括的具体的タスク計画に適用する。
論文 参考訳(メタデータ) (2025-09-30T15:07:59Z) - HiPlan: Hierarchical Planning for LLM-Based Agents with Adaptive Global-Local Guidance [11.621973074884002]
HiPlanは、大規模言語モデル(LLM)ベースのエージェントのための階層的計画フレームワークである。
複雑なタスクを、一般的な方向のためのマイルストーンアクションガイドと、詳細なアクションのためのステップワイズヒントに分解する。
オフラインのフェーズでは、専門家によるデモンストレーションからマイルストーンライブラリを構築し、構造化されたエクスペリエンスの再利用を可能にします。
実行フェーズでは、過去のマイルストーンからの軌道セグメントを動的に適応してステップワイズヒントを生成する。
論文 参考訳(メタデータ) (2025-08-26T14:37:48Z) - Scaling LLM Planning: NL2FLOW for Parametric Problem Generation and Rigorous Evaluation [0.913755431537592]
この作業では、ワークフロー計画問題の生成と評価のための完全に自動化されたパイプラインであるNL2Flowが導入されている。
NL2Flowは、構造化中間表現においてパラメトリックに問題を発生させ、それらを自然言語と形式PDDLの両方に翻訳する。
NL2Flowが生成した2296個の低微分問題に基づいて,オープンソースのインストラクション付きLLMを評価した。
論文 参考訳(メタデータ) (2025-07-03T03:02:49Z) - Flex-TravelPlanner: A Benchmark for Flexible Planning with Language Agents [16.295418365993033]
Flex-TravelPlannerは動的計画シナリオで柔軟に推論できる言語モデルの能力を評価するベンチマークです。
GPT-4o と Llama 3.1 70B を解析したところ,いくつかの重要な所見が得られた。
論文 参考訳(メタデータ) (2025-06-05T05:31:50Z) - Improving Large Language Model Planning with Action Sequence Similarity [50.52049888490524]
本研究では,インコンテキスト学習(ICL)によるモデル計画能力の向上について検討する。
GRASE-DC は2段階のパイプラインで,まず高効率のAS例を再サンプリングし,選択した例をキュレートする。
実験の結果,GRASE-DCは様々な計画タスクにおいて大幅な性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2025-05-02T05:16:17Z) - PlanGEN: A Multi-Agent Framework for Generating Planning and Reasoning Trajectories for Complex Problem Solving [89.60370366013142]
制約,検証,選択という3つの重要な要素を持つモデルに依存しない,スケーラブルなエージェントフレームワークであるPlanGENを提案する。
具体的には、推論時間アルゴリズムの性能を向上させるために、制約誘導反復検証を提案する。
論文 参考訳(メタデータ) (2025-02-22T06:21:56Z) - AdaPlanner: Adaptive Planning from Feedback with Language Models [56.367020818139665]
大規模言語モデル(LLM)は、最近、シーケンシャルな意思決定タスクの自律的エージェントとして機能する可能性を実証している。
本研究では,LLMエージェントが環境フィードバックに応じて自己生成計画を適応的に改善することのできるクローズドループアプローチであるAdaPlannerを提案する。
幻覚を緩和するために,様々なタスク,環境,エージェント機能にまたがる計画生成を容易にするコードスタイルのLCMプロンプト構造を開発した。
論文 参考訳(メタデータ) (2023-05-26T05:52:27Z) - Sequence-Based Plan Feasibility Prediction for Efficient Task and Motion
Planning [36.300564378022315]
本稿では,移動環境における移動操作問題を解決するための学習可能なタスク・アンド・モーション・プランニング(TAMP)アルゴリズムを提案する。
本アルゴリズムのコアは,タスク計画,目標,初期状態を考慮したトランスフォーマーに基づく新しい学習手法であるPIGINetであり,タスク計画に関連する運動軌跡の発見確率を予測する。
論文 参考訳(メタデータ) (2022-11-03T04:12:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。