論文の概要: Plan-MCTS: Plan Exploration for Action Exploitation in Web Navigation
- arxiv url: http://arxiv.org/abs/2602.14083v1
- Date: Sun, 15 Feb 2026 10:24:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.645823
- Title: Plan-MCTS: Plan Exploration for Action Exploitation in Web Navigation
- Title(参考訳): Plan-MCTS: Webナビゲーションにおける行動爆発のための計画探索
- Authors: Weiming Zhang, Jihong Wang, Jiamu Zhou, Qingyao Li, Xinbei Ma, Congmin Zheng, Xingyu Lou, Weiwen Liu, Zhuosheng Zhang, Jun Wang, Yong Yu, Weinan Zhang,
- Abstract要約: Plan-MCTSは、探索を意味的なPlan Spaceに移行することでWebナビゲーションを再構築するフレームワークである。
Plan-MCTSは最先端の性能を達成し、タスク効率と探索効率を向上した現在の手法を超越している。
- 参考スコア(独自算出の注目度): 50.406803870992974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have empowered autonomous agents to handle complex web navigation tasks. While recent studies integrate tree search to enhance long-horizon reasoning, applying these algorithms in web navigation faces two critical challenges: sparse valid paths that lead to inefficient exploration, and a noisy context that dilutes accurate state perception. To address this, we introduce Plan-MCTS, a framework that reformulates web navigation by shifting exploration to a semantic Plan Space. By decoupling strategic planning from execution grounding, it transforms sparse action space into a Dense Plan Tree for efficient exploration, and distills noisy contexts into an Abstracted Semantic History for precise state awareness. To ensure efficiency and robustness, Plan-MCTS incorporates a Dual-Gating Reward to strictly validate both physical executability and strategic alignment and Structural Refinement for on-policy repair of failed subplans. Extensive experiments on WebArena demonstrate that Plan-MCTS achieves state-of-the-art performance, surpassing current approaches with higher task effectiveness and search efficiency.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複雑なWebナビゲーションタスクを処理するために自律エージェントに権限を与えている。
近年の研究では、木探索を統合して長期的推論を強化する一方で、これらのアルゴリズムをWebナビゲーションに適用することは、2つの重要な課題に直面している。
そこで我々はPlan-MCTSを提案する。Plan-MCTSは、探索を意味的なPlan SpaceにシフトすることでWebナビゲーションを再構築するフレームワークである。
戦略的な計画と実行基盤から切り離すことにより、スパースアクションスペースをDense Plan Treeに変換し、効率的に探索し、ノイズの多いコンテキストを抽象的セマンティックヒストリーに蒸留し、正確な状態認識を実現する。
効率性と堅牢性を確保するため、Plan-MCTSはDual-Gating Rewardを導入し、物理的実行可能性と戦略的整合性の両方を厳格に検証する。
WebArena上での大規模な実験により、Plan-MCTSは、タスク効率と探索効率を向上した現在のアプローチを超越して、最先端のパフォーマンスを実現することが実証された。
関連論文リスト
- Branch-and-Browse: Efficient and Controllable Web Exploration with Tree-Structured Reasoning and Action Memory [69.49061918994882]
Branch-and-Browseは構造化推論処理、コンテキスト記憶、効率的な実行を統一する、きめ細かいWebエージェントフレームワークである。
WebArenaベンチマークでは、Branch-and-Browseはタスク成功率35.8%を達成し、最先端の手法と比較して実行時間を最大40.4%削減している。
論文 参考訳(メタデータ) (2025-10-18T00:45:37Z) - DeepPlanner: Scaling Planning Capability for Deep Research Agents via Advantage Shaping [74.34061104176554]
我々は、ディープリサーチエージェントの計画能力を効果的に向上するエンドツーエンドのRLフレームワークであるDeepPlannerを提案する。
提案手法は,高エントロピートークンの大幅な更新を割り当てるエントロピーに基づく用語を用いてトークンレベルの優位性を形作るとともに,計画集約ロールアウトに対するサンプルレベルの優位性を選択的に向上させる。
論文 参考訳(メタデータ) (2025-10-14T20:47:05Z) - HyperTree Planning: Enhancing LLM Reasoning via Hierarchical Thinking [109.09735490692202]
提案するHyperTree Planning(HTP)は,高木構造プランニングアウトラインを構成する新しい推論パラダイムである。
実験ではHTPの有効性を実証し、Gemini-1.5-ProによるTravelPlannerベンチマークで最先端の精度を実現し、o1-previewよりも3.6倍の性能向上を実現した。
論文 参考訳(メタデータ) (2025-05-05T02:38:58Z) - AI2STOW: End-to-End Deep Reinforcement Learning to Construct Master Stowage Plans under Demand Uncertainty [0.0]
本稿では,AI2STOWを提案する。AI2STOWは,要求不確実性の下でマスタープランを作成するための,実現可能性予測とアクションマスクを備えたエンドツーエンドの深層強化学習モデルである。
実験の結果,AI2STOWは強化学習やプログラミングのベースライン手法よりも客観的な性能と計算効率が優れていることが示された。
論文 参考訳(メタデータ) (2025-04-06T12:45:25Z) - Adaptive Interactive Navigation of Quadruped Robots using Large Language Models [14.14967096139099]
大規模言語モデル(LLM)を用いたタスク計画のための原始木を提案する。
動作計画のための多目的移動と相互作用行動を含む総合的なスキルライブラリを事前学習するために強化学習を採用する。
ツリー構造に統合されたリプランニングメカニズムにより、便利なノードの追加とプルーニングが可能になる。
論文 参考訳(メタデータ) (2025-03-29T02:17:52Z) - SCoTT: Strategic Chain-of-Thought Tasking for Wireless-Aware Robot Navigation in Digital Twins [78.53885607559958]
無線対応経路計画フレームワークであるSCoTTを提案する。
SCoTT は DP-WA* の2% 以内で経路ゲインを達成し, 連続的に短い軌道を生成できることを示す。
また,ガゼボシミュレーションにおいて,SCoTTをROSノードとして配置することにより,本手法の実用性を示す。
論文 参考訳(メタデータ) (2024-11-27T10:45:49Z) - WebPilot: A Versatile and Autonomous Multi-Agent System for Web Task Execution with Strategic Exploration [42.8636989730348]
既存のLLMベースのWebエージェントは、特定の州や行動に特有の厳格で専門家が設計したポリシーに依存している。
人間は未知を探索し、戦略を継続的に順応し、探索を通じてあいまいさを解消することで優れる。
我々は,モンテカルロ木探索(MCTS)を改良し,複雑なWeb環境をよりよく扱うマルチエージェントシステムであるWebPilotを開発した。
論文 参考訳(メタデータ) (2024-08-28T17:49:29Z) - Diffusion-Reinforcement Learning Hierarchical Motion Planning in Multi-agent Adversarial Games [6.532258098619471]
環境データに応答するグローバルパスを計画するために,高レベル拡散モデルを統合する階層型アーキテクチャを提案する。
提案手法は,検出率と目標到達率において77.18%,47.38%のベースラインを上回っている。
論文 参考訳(メタデータ) (2024-03-16T03:53:55Z) - Path Planning based on 2D Object Bounding-box [8.082514573754954]
都会の運転シナリオにおける模倣学習を通じて開発された物体の2次元境界ボックスを利用する経路計画法を提案する。
これは、高精細(HD)マップデータと周囲のカメラが捉えた画像を統合することで実現される。
我々は, nuPlan計画課題におけるモデルの評価を行い, 既存のビジョン中心の手法と比較して, 競争力があることを示した。
論文 参考訳(メタデータ) (2024-02-22T19:34:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。