論文の概要: STRUCTUREDAGENT: Planning with AND/OR Trees for Long-Horizon Web Tasks
- arxiv url: http://arxiv.org/abs/2603.05294v1
- Date: Thu, 05 Mar 2026 15:37:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.300721
- Title: STRUCTUREDAGENT: Planning with AND/OR Trees for Long-Horizon Web Tasks
- Title(参考訳): StructureDAGENT:Long-Horizon WebタスクのためのAND/ORツリーによるプランニング
- Authors: ELita Lobo, Xu Chen, Jingjing Meng, Nan Xi, Yang Jiao, Chirag Agarwal, Yair Zick, Yan Gao,
- Abstract要約: StructureDAGENTは2つのコアコンポーネントを備えた階層的な計画フレームワークである。
解釈可能な階層的な計画を生成し、デバッグを容易にし、必要な時に人間の介入を容易にする。
WebVoyager, WebArena, およびカスタムショッピングベンチマークの結果、StructureDAGENTは、標準のLLMエージェントと比較して、長時間のWebブラウジングタスクのパフォーマンスを向上させることが示された。
- 参考スコア(独自算出の注目度): 40.13135948595863
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have enabled agentic systems for sequential decision-making. Such agents must perceive their environment, reason across multiple time steps, and take actions that optimize long-term objectives. However, existing web agents struggle on complex, long-horizon tasks due to limited in-context memory for tracking history, weak planning abilities, and greedy behaviors that lead to premature termination. To address these challenges, we propose STRUCTUREDAGENT, a hierarchical planning framework with two core components: (1) an online hierarchical planner that uses dynamic AND/OR trees for efficient search and (2) a structured memory module that tracks and maintains candidate solutions to improve constraint satisfaction in information-seeking tasks. The framework also produces interpretable hierarchical plans, enabling easier debugging and facilitating human intervention when needed. Our results on WebVoyager, WebArena, and custom shopping benchmarks show that STRUCTUREDAGENT improves performance on long-horizon web-browsing tasks compared to standard LLM-based agents.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、逐次意思決定のためのエージェントシステムを可能にしている。
このようなエージェントは環境を知覚し、複数の時間ステップにまたがる推論を行い、長期的な目的を最適化する行動を取る必要がある。
しかし、既存のWebエージェントは、履歴を追跡するためのコンテキスト内メモリの制限、計画能力の弱さ、未熟な終了につながる欲求行動のために、複雑で長期にわたるタスクに苦労している。
これらの課題に対処するために,(1)動的・OR木を効率的な探索に利用するオンライン階層型プランナ,(2)情報探索タスクにおける制約満足度を改善するための候補解を追跡し,維持する構造化メモリモジュールの2つのコアコンポーネントを備えた階層型計画フレームワークであるStructureDAGENTを提案する。
このフレームワークは解釈可能な階層的な計画も生成し、デバッグが容易になり、必要な時に人間の介入が容易になる。
WebVoyager, WebArena, およびカスタムショッピングベンチマークの結果、StructureDAGENTは、標準のLLMエージェントと比較して、長時間のWebブラウジングタスクのパフォーマンスを向上させることが示された。
関連論文リスト
- Plan-MCTS: Plan Exploration for Action Exploitation in Web Navigation [50.406803870992974]
Plan-MCTSは、探索を意味的なPlan Spaceに移行することでWebナビゲーションを再構築するフレームワークである。
Plan-MCTSは最先端の性能を達成し、タスク効率と探索効率を向上した現在の手法を超越している。
論文 参考訳(メタデータ) (2026-02-15T10:24:45Z) - H-AIM: Orchestrating LLMs, PDDL, and Behavior Trees for Hierarchical Multi-Robot Planning [3.2800662172795114]
H-AIMは、新しいマルチロボットタスク計画フレームワークである。
命令を解析し、計画ドメイン定義言語(PDDL)問題記述を生成するために、大きな言語モデル(LLM)を利用する。
結果のプランを、リアクティブコントロールのための行動ツリーにコンパイルする。
論文 参考訳(メタデータ) (2026-01-16T07:59:50Z) - TALM: Dynamic Tree-Structured Multi-Agent Framework with Long-Term Memory for Scalable Code Generation [0.0]
エージェントコード生成には、複雑なコンテキスト管理と多段階推論が可能な大きな言語モデルが必要である。
本稿では,構造化タスク分解,局所化再推論,長期記憶機構を統合した動的フレームワークTALMを提案する。
HumanEval、BigCodeBench、ClassEvalベンチマークの実験結果は、TALMが一貫して強力な推論性能と高いトークン効率を提供することを示している。
論文 参考訳(メタデータ) (2025-10-27T05:07:36Z) - Log2Plan: An Adaptive GUI Automation Framework Integrated with Task Mining Approach [1.7970227672578558]
既存のVLMベースのプランナー・エグゼクタエージェントは、不安定な一般化、高いレイテンシ、限られた長距離コヒーレンスに悩まされている。
Log2Planは、構造化された2段階の計画フレームワークと、ユーザの振る舞いログに対するタスクマイニングアプローチを組み合わせることで、これらの制限に対処する。
実世界のタスク200件についてLog2Planを評価し,タスク成功率と実行時間を大幅に改善した。
論文 参考訳(メタデータ) (2025-09-26T09:56:44Z) - HiRA: A Hierarchical Reasoning Framework for Decoupled Planning and Execution in Deep Search [85.12447821237045]
HiRAは、戦略的な計画と専門的な実行を分離する階層的なフレームワークである。
提案手法では,複雑な探索タスクを集中サブタスクに分解し,各サブタスクを外部ツールと推論機能を備えたドメイン固有エージェントに割り当てる。
4つの複雑なクロスモーダルなディープ・サーチ・ベンチマークの実験により、HiRAは最先端のRAGとエージェント・ベース・システムを大きく上回っていることが示された。
論文 参考訳(メタデータ) (2025-07-03T14:18:08Z) - RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation [59.9896841079005]
長距離ロボット操作における高レベル推論評価のためのベンチマークであるRoboCerebraを紹介する。
データセットはトップダウンパイプラインを通じて構築され、GPTはタスク命令を生成し、それらをサブタスクシーケンスに分解する。
以前のベンチマークと比較すると、RoboCerebraはアクションシーケンスが大幅に長く、アノテーションがより密度が高い。
論文 参考訳(メタデータ) (2025-06-07T06:15:49Z) - Beyond Needle(s) in the Embodied Haystack: Environment, Architecture, and Training Considerations for Long Context Reasoning [11.179019629415514]
$infty$-THORは、エンボディドAIにおける長期コンテキスト理解を促進する、長期的なエンボディドタスクのための新しいフレームワークである。
a new embodied QA task, Needle(s) in the Embodied Haystack, (3) long-horizon dataset and benchmark suite。
論文 参考訳(メタデータ) (2025-05-22T17:20:38Z) - HyperTree Planning: Enhancing LLM Reasoning via Hierarchical Thinking [109.09735490692202]
提案するHyperTree Planning(HTP)は,高木構造プランニングアウトラインを構成する新しい推論パラダイムである。
実験ではHTPの有効性を実証し、Gemini-1.5-ProによるTravelPlannerベンチマークで最先端の精度を実現し、o1-previewよりも3.6倍の性能向上を実現した。
論文 参考訳(メタデータ) (2025-05-05T02:38:58Z) - Nl2Hltl2Plan: Scaling Up Natural Language Understanding for Multi-Robots Through Hierarchical Temporal Logic Task Representation [8.180994118420053]
Nl2Hltl2Planは自然言語コマンドを階層線形時間論理(LTL)に変換するフレームワーク
まず、LLMは命令を階層的なタスクツリーに変換し、論理的および時間的関係をキャプチャする。
次に、微調整されたLLMは、サブタスクをフラットな公式に変換し、階層的な仕様に集約する。
論文 参考訳(メタデータ) (2024-08-15T14:46:13Z) - Learning adaptive planning representations with natural language
guidance [90.24449752926866]
本稿では,タスク固有の計画表現を自動構築するフレームワークであるAdaについて述べる。
Adaは、プランナー互換の高レベルアクション抽象化と、特定の計画タスク領域に適応した低レベルコントローラのライブラリを対話的に学習する。
論文 参考訳(メタデータ) (2023-12-13T23:35:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。