論文の概要: Why Do LLM-based Web Agents Fail? A Hierarchical Planning Perspective
- arxiv url: http://arxiv.org/abs/2603.14248v1
- Date: Sun, 15 Mar 2026 06:52:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.698086
- Title: Why Do LLM-based Web Agents Fail? A Hierarchical Planning Perspective
- Title(参考訳): LLMベースのWebエージェントが失敗する理由 : 階層的プランニングの視点から
- Authors: Mohamed Aghzal, Gregory J. Stein, Ziyu Yao,
- Abstract要約: 大規模言語モデル(LLM)ウェブエージェントは、Webナビゲーションにますます使われているが、現実的で長期のタスクに対する人間の信頼性には程遠い。
3層にわたるWebエージェント(ハイレベルプランニング、低レベル実行、リプランニング)を分析する階層的プランニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 14.967485941664206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) web agents are increasingly used for web navigation but remain far from human reliability on realistic, long-horizon tasks. Existing evaluations focus primarily on end-to-end success, offering limited insight into where failures arise. We propose a hierarchical planning framework to analyze web agents across three layers (i.e., high-level planning, low-level execution, and replanning), enabling process-based evaluation of reasoning, grounding, and recovery. Our experiments show that structured Planning Domain Definition Language (PDDL) plans produce more concise and goal-directed strategies than natural language (NL) plans, but low-level execution remains the dominant bottleneck. These results indicate that improving perceptual grounding and adaptive control, not only high-level reasoning, is critical for achieving human-level reliability. This hierarchical perspective provides a principled foundation for diagnosing and advancing LLM web agents.
- Abstract(参考訳): 大規模言語モデル(LLM)ウェブエージェントは、Webナビゲーションにますます使われているが、現実的で長期のタスクに対する人間の信頼性には程遠い。
既存の評価は、主にエンドツーエンドの成功に焦点を当て、障害の発生場所に関する限られた洞察を提供する。
本稿では,3層にまたがるWebエージェント(高レベル計画,低レベル実行,再計画)を分析し,推論,グラウンド,リカバリのプロセスベース評価を可能にする階層的計画フレームワークを提案する。
実験の結果,構造化プランニングドメイン定義言語(PDDL)プランは,自然言語(NL)プランよりも簡潔で目標指向の戦略を生成するが,低レベルの実行が主要なボトルネックであることがわかった。
これらの結果は、高いレベルの推論だけでなく、知覚的接地と適応制御の改善が人間レベルの信頼性を達成する上で重要であることを示唆している。
この階層的な視点は、LLM Webエージェントの診断と進歩のための原則的な基盤を提供する。
関連論文リスト
- HiMAC: Hierarchical Macro-Micro Learning for Long-Horizon LLM Agents [19.63866851076813]
HiMACは階層的なエージェントRLフレームワークで、長期の意思決定をマクロレベルの計画とマイクロレベルの実行に分解する。
その結果,モデルスケールを単独で増やすのではなく,構造的階層を導入することが,堅牢な長期エージェントインテリジェンスを実現する上で重要な要素であることが示唆された。
論文 参考訳(メタデータ) (2026-03-01T08:09:03Z) - Why Reasoning Fails to Plan: A Planning-Centric Analysis of Long-Horizon Decision Making in LLM Agents [42.09897801169138]
大規模言語モデル(LLM)に基づくエージェントは、短い地平線上でのステップバイステップ推論能力を示すが、長い計画地平線上でのコヒーレントな振舞いを維持できないことが多い。
我々は、ステップワイズ推論は、短い地平線に適しているが、長期計画では失敗するステップワイズ欲求政策の形式を誘導すると主張する。
我々は、FLAREを将来の計画の最小限のインスタンス化として導入し、明示的なルックアヘッド、価値伝播、限定的なコミットメントを1つのモデルで実施する。
論文 参考訳(メタデータ) (2026-01-29T20:52:32Z) - Learning Affordances at Inference-Time for Vision-Language-Action Models [50.93181349331096]
ロボット工学において、VLA(Vision-Language-Action Model)は複雑な制御タスクを解くための有望な道を提供する。
本稿では,VLAの低レベルポリシーを過去の経験を条件とした高レベルVLMに接続するLITEN(Learning from Inference-Time Execution)を紹介する。
提案手法は,低レベルVLAの計画の生成と実行を行う推論フェーズと,その結果を反映した評価フェーズとを反復する。
論文 参考訳(メタデータ) (2025-10-22T16:43:29Z) - DeepPlanner: Scaling Planning Capability for Deep Research Agents via Advantage Shaping [74.34061104176554]
我々は、ディープリサーチエージェントの計画能力を効果的に向上するエンドツーエンドのRLフレームワークであるDeepPlannerを提案する。
提案手法は,高エントロピートークンの大幅な更新を割り当てるエントロピーに基づく用語を用いてトークンレベルの優位性を形作るとともに,計画集約ロールアウトに対するサンプルレベルの優位性を選択的に向上させる。
論文 参考訳(メタデータ) (2025-10-14T20:47:05Z) - Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning [56.496001894673235]
強化学習(RL)は,大規模言語モデル(LLM)の複雑な推論能力の向上に有効であることが証明された。
解析の結果,アハモーメント,長さスケーリング,エントロピーのダイナミクスといったファズリング現象は異なる現象ではなく,創発的推論階層の目印であることがわかった。
論文 参考訳(メタデータ) (2025-09-03T18:52:49Z) - Strict Subgoal Execution: Reliable Long-Horizon Planning in Hierarchical Reinforcement Learning [5.274804664403783]
SSE(Strict Subgoal Execution)は、グラフベースの階層的RLフレームワークで、単一ステップのサブゴアル到達性を強制する。
SSE は既存の目標条件付き RL および階層型 RL アプローチを効率と成功率の両方で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-06-26T06:35:42Z) - PGPO: Enhancing Agent Reasoning via Pseudocode-style Planning Guided Preference Optimization [58.465778756331574]
本稿では,効果的なエージェント学習のためのPGPOと呼ばれる疑似コード型計画優先最適化手法を提案する。
2つの計画指向の報酬により、PGPOは、高品質なPコードプランを生成するLLMエージェントの能力をさらに強化する。
実験により、PGPOは代表エージェントベンチマークよりも優れた性能を示し、現在のリードベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2025-06-02T09:35:07Z) - Learning Hierarchical Domain Models Through Environment-Grounded Interaction [14.98687521721637]
オープンワールド環境では、単一の汎用ドメインモデルは様々なタスクをキャプチャできない。
大きな言語モデル(LLM)はそのようなドメインを生成することができるが、適用性を制限する高いエラー率に悩まされる。
LLMと環境基盤からの自律的ドメイン学習のためのフレームワークであるLODGEを提案する。
論文 参考訳(メタデータ) (2025-05-15T20:23:21Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - LLM-SAP: Large Language Models Situational Awareness Based Planning [0.0]
我々は、潜在的なリスクを予測し、積極的に軽減する方法論を開発するために、マルチエージェント推論フレームワークを使用します。
提案手法は,人間中心のインタラクションの複雑さを計画プロセスに組み込むことによって,従来のオートマトン理論から分岐する。
論文 参考訳(メタデータ) (2023-12-26T17:19:09Z) - Learning adaptive planning representations with natural language
guidance [90.24449752926866]
本稿では,タスク固有の計画表現を自動構築するフレームワークであるAdaについて述べる。
Adaは、プランナー互換の高レベルアクション抽象化と、特定の計画タスク領域に適応した低レベルコントローラのライブラリを対話的に学習する。
論文 参考訳(メタデータ) (2023-12-13T23:35:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。