論文の概要: AI Planning Framework for LLM-Based Web Agents
- arxiv url: http://arxiv.org/abs/2603.12710v1
- Date: Fri, 13 Mar 2026 06:46:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.949748
- Title: AI Planning Framework for LLM-Based Web Agents
- Title(参考訳): LLMベースのWebエージェントのためのAIプランニングフレームワーク
- Authors: Orit Shahnovsky, Rotem Dror,
- Abstract要約: 現代のエージェントアーキテクチャを従来の計画パラダイムにマッピングする分類法を導入する。
簡単な成功率を超える軌道品質を評価する5つの新しい評価指標を提案する。
以上の結果から, ステップ・バイ・ステップ・エージェントはヒトのゴールドトラジェクトリとより密に連携するが, フル・プラン・イン・アドバンス・エージェントは技術的に優れていることがわかった。
- 参考スコア(独自算出の注目度): 2.9376953730570197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing autonomous agents for web-based tasks is a core challenge in AI. While Large Language Model (LLM) agents can interpret complex user requests, they often operate as black boxes, making it difficult to diagnose why they fail or how they plan. This paper addresses this gap by formally treating web tasks as sequential decision-making processes. We introduce a taxonomy that maps modern agent architectures to traditional planning paradigms: Step-by-Step agents to Breadth-First Search (BFS), Tree Search agents to Best-First Tree Search, and Full-Plan-in-Advance agents to Depth-First Search (DFS). This framework allows for a principled diagnosis of system failures like context drift and incoherent task decomposition. To evaluate these behaviors, we propose five novel evaluation metrics that assess trajectory quality beyond simple success rates. We support this analysis with a new dataset of 794 human-labeled trajectories from the WebArena benchmark. Finally, we validate our evaluation framework by comparing a baseline Step-by-Step agent against a novel Full-Plan-in-Advance implementation. Our results reveal that while the Step-by-Step agent aligns more closely with human gold trajectories (38% overall success), the Full-Plan-in-Advance agent excels in technical measures such as element accuracy (89%), demonstrating the necessity of our proposed metrics for selecting appropriate agent architectures based on specific application constraints.
- Abstract(参考訳): ウェブベースのタスクのための自律エージェントの開発は、AIにおける中核的な課題である。
LLM(Large Language Model)エージェントは複雑なユーザリクエストを解釈できるが、ブラックボックスとして動作することが多く、なぜ失敗するか、どのように計画するかの診断が難しい。
本稿では、Webタスクをシーケンシャルな意思決定プロセスとして公式に扱うことにより、このギャップに対処する。
本稿では,最新のエージェントアーキテクチャを従来の計画パラダイムにマッピングする分類法を紹介する。ステップバイステップエージェントをBFS(Breadth-First Search)に,ツリー検索エージェントをBest-First Tree Searchに,フルプラン・イン・アドバンスエージェントをDFS(Depth-First Search)に,それぞれ導入する。
このフレームワークは、コンテキストドリフトや非コヒーレントなタスク分解のような、システム障害の原則的な診断を可能にする。
これらの挙動を評価するために,簡単な成功率を超える軌道品質を評価する5つの新しい評価指標を提案する。
我々は、WebArenaベンチマークから、794人のラベル付き軌道のデータセットを新たに作成することで、この分析を支援する。
最後に,基本となるStep-by-Stepエージェントと新しいFull-Plan-in-Advance実装を比較し,評価フレームワークを検証する。
その結果、ステップ・バイ・ステップ・エージェントは、人間のゴールドトラジェクトリ(全体の38%の成功)とより密に連携するが、フル・プラン・イン・アドバンス・エージェントは、要素精度(89%)などの技術的指標に優れており、特定のアプリケーション制約に基づいて適切なエージェントアーキテクチャを選択するための指標の必要性が示されている。
関連論文リスト
- Designing Domain-Specific Agents via Hierarchical Task Abstraction Mechanism [61.01709143437043]
階層型タスク抽象化機構(HTAM)を中心とした新しいエージェント設計フレームワークを提案する。
具体的には、HTAMは、社会的役割のエミュレーションを超えて、代わりに、複数のエージェントシステムを、あるドメインの固有のタスク依存グラフを反映する論理階層に構造化する。
我々は、複雑な地理空間解析に適したマルチエージェントシステムであるEarthAgentとして、このフレームワークをインスタンス化する。
論文 参考訳(メタデータ) (2025-11-21T12:25:47Z) - EmbodiedBrain: Expanding Performance Boundaries of Task Planning for Embodied Intelligence [17.644658293987955]
身体的AIエージェントは、物理的環境における堅牢な空間認識、効果的なタスク計画、適応実行を行うことができる。
現在の大規模言語モデル (LLMs) とマルチモーダルLLM (MLLMs) の具体化タスクは、重要な制約に悩まされている。
EmbodiedBrain は 7B と 32B のパラメータサイズで利用できる新しい視覚言語基盤モデルである。
論文 参考訳(メタデータ) (2025-10-23T14:05:55Z) - A Comprehensive Survey on Benchmarks and Solutions in Software Engineering of LLM-Empowered Agentic System [56.40989626804489]
この調査は、Large Language Modelsを使ったソフトウェアエンジニアリングに関する、最初の総合的な分析を提供する。
本稿では,150以上の最近の論文をレビューし,(1)素早い,微調整,エージェントベースのパラダイムに分類した解法,(2)コード生成,翻訳,修復などのタスクを含むベンチマークという2つの重要な側面に沿った分類法を提案する。
論文 参考訳(メタデータ) (2025-10-10T06:56:50Z) - Deep Research Agents: A Systematic Examination And Roadmap [109.53237992384872]
Deep Research (DR) エージェントは複雑な多ターン情報研究タスクに取り組むように設計されている。
本稿では,DRエージェントを構成する基礎技術とアーキテクチャコンポーネントの詳細な分析を行う。
論文 参考訳(メタデータ) (2025-06-22T16:52:48Z) - AgentSwift: Efficient LLM Agent Design via Value-guided Hierarchical Search [58.98450205734779]
大規模言語モデル(LLM)エージェントは、多様なドメインにまたがる強力な機能を示している。
既存のエージェントサーチ手法には3つの大きな制限がある。
これらの課題に対処するための包括的なフレームワークを導入します。
論文 参考訳(メタデータ) (2025-06-06T12:07:23Z) - SOP-Agent: Empower General Purpose AI Agent with Domain-Specific SOPs [9.117180930298813]
汎用AIエージェントは、ドメイン固有の知識と人間の専門知識を効率的に活用するのに苦労する。
ドメイン固有のエージェントを構築するための新しいフレームワークであるSOP-agent(Standard Operational Procedure-Guided Agent)を紹介する。
SOPエージェントは優れた汎用性を示し、汎用エージェントフレームワークよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-01-16T06:14:58Z) - Agents meet OKR: An Object and Key Results Driven Agent System with
Hierarchical Self-Collaboration and Self-Evaluation [25.308341461293857]
OKR-Agentは、タスク解決におけるLarge Language Models(LLM)の機能を強化するように設計されている。
我々のフレームワークには、階層オブジェクトとキー結果の生成とマルチレベル評価という、2つの新しいモジュールが含まれています。
論文 参考訳(メタデータ) (2023-11-28T06:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。