論文の概要: WebNavigator: Global Web Navigation via Interaction Graph Retrieval
- arxiv url: http://arxiv.org/abs/2603.20366v1
- Date: Fri, 20 Mar 2026 17:47:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:38.868274
- Title: WebNavigator: Global Web Navigation via Interaction Graph Retrieval
- Title(参考訳): WebNavigator: インタラクショングラフ検索によるグローバルWebナビゲーション
- Authors: Xuanwang Zhang, Yuteng Han, Jinnan Qi, Mulong Xie, Zhen Wu, Xinyu Dai,
- Abstract要約: 我々はWebNavigatorを導入し、Webナビゲーションを決定論的検索とパスフィンディングに再構成する。
WebNavigatorはWebArenaとOnlineMind2Webで最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 19.16084353983936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite significant advances in autonomous web navigation, current methods remain far from human-level performance in complex web environments. We argue that this limitation stems from Topological Blindness, where agents are forced to explore via trial-and-error without access to the global topological structure of the environment. To overcome this limitation, we introduce WebNavigator, which reframes web navigation from probabilistic exploration into deterministic retrieval and pathfinding. WebNavigator constructs Interaction Graphs via zero-token cost heuristic exploration offline and implements a Retrieve-Reason-Teleport workflow for global navigation online. WebNavigator achieves state-of-the-art performance on WebArena and OnlineMind2Web. On WebArena multi-site tasks, WebNavigator achieves a 72.9\% success rate, more than doubling the performance of enterprise-level agents. This work reveals that Topological Blindness, rather than model reasoning capabilities alone, is an underestimated bottleneck in autonomous web navigation.
- Abstract(参考訳): 自律的なWebナビゲーションの大幅な進歩にもかかわらず、現在の手法は複雑なWeb環境での人間レベルのパフォーマンスには程遠いままである。
この制限は、エージェントが環境のグローバルなトポロジカルな構造にアクセスすることなく、試行錯誤によって探索せざるを得ないトポロジカル・ブラインドネス(Topological Blindness)に起因していると我々は主張する。
この制限を克服するために、WebNavigatorを導入し、Webナビゲーションを確率論的探索から決定論的検索とパスフィンディングに再構成する。
WebNavigatorは、ゼロツーケンのコストヒューリスティックなオフライン探索を通じてInteraction Graphを構築し、グローバルナビゲーション用のRetrieve-Reason-Teleportワークフローを実装している。
WebNavigatorはWebArenaとOnlineMind2Webで最先端のパフォーマンスを実現する。
WebArenaのマルチサイトタスクでは、WebNavigatorはエンタープライズレベルのエージェントのパフォーマンスを2倍にするのではなく、72.9%の成功率を達成した。
この研究によると、トポロジカル・ブラインドネスは、モデル推論能力だけでなく、自律的なWebナビゲーションにおいて過小評価されているボトルネックである。
関連論文リスト
- OpenFrontier: General Navigation with Visual-Language Grounded Frontiers [54.661157616245966]
オープンワールドナビゲーションでは、複雑な日常環境においてロボットが意思決定を行う必要がある。
近年の視覚-言語ナビゲーション(VLN)と視覚-言語-アクション(VLA)モデルは、自然言語で条件付けられたエンドツーエンドのポリシーを実現する。
多様な視覚をシームレスに統合するトレーニングフリーナビゲーションフレームワークであるOpenFrontierを提案する。
論文 参考訳(メタデータ) (2026-03-05T17:02:22Z) - See and Remember: A Multimodal Agent for Web Traversal [19.326814654711296]
V-GEMSは、Webナビゲーションのための堅牢なマルチモーダルエージェントアーキテクチャである。
エージェントは視覚的グラウンド処理を統合し、あいまいな対話的要素を解決し、状態追跡を伴う明示的なメモリスタックを導入する。
実験の結果、V-GEMSはWebWalkerベースラインを著しく上回り、28.7%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2026-03-03T05:55:05Z) - Nested Browser-Use Learning for Agentic Information Seeking [60.775556172513014]
情報検索(IS)エージェントは広範囲にわたる検索タスクで高いパフォーマンスを達成しているが、ツールの使用はAPIレベルのスニペット検索やURLベースのページフェッチに限られている。
我々はNested Browser-Use Learning (NestBrowse)を提案する。NestBrowseは、ネストされた構造を通してページ探索からインタラクション制御を分離する最小かつ完全なブラウザアクションフレームワークである。
論文 参考訳(メタデータ) (2025-12-29T17:59:14Z) - WebRollback: Enhancing Web Agents with Explicit Rollback Mechanisms [52.942566473658054]
我々は、明示的なロールバック機構でWebエージェントを強化し、エージェントがナビゲーションの軌跡の前の状態に戻れるようにした。
このメカニズムは、モデルに検索プロセスを直接制御する柔軟性を与え、効果的で効率的なWebナビゲーション方法をもたらす。
論文 参考訳(メタデータ) (2025-04-16T05:41:20Z) - WebNav: An Intelligent Agent for Voice-Controlled Web Navigation [0.0]
WebNavはマルチモーダルなWebナビゲーションのための新しいエージェントである。
システムは、スクリーンショットからの視覚ベースのコンテキストと動的DOMラベルのブラウザ拡張を組み合わせる。
論文 参考訳(メタデータ) (2025-03-18T02:33:27Z) - NaviQAte: Functionality-Guided Web Application Navigation [6.0759036120654315]
NaviQAteは、Webアプリケーションの探索を質問と回答のタスクとして捉え、詳細なパラメータを必要とせずに機能のためのアクションシーケンスを生成する。
我々の3段階のアプローチでは、GPT-4oのような先進的な言語モデルを用いて複雑な意思決定を行い、GPT-4o miniのようなコスト効率のよいモデルを用いる。
論文 参考訳(メタデータ) (2024-09-16T21:18:39Z) - ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z) - Adversarial Environment Generation for Learning to Navigate the Web [107.99759923626242]
Webナビゲーションエージェントのトレーニングのボトルネックの1つは、トレーニング環境の学習可能なカリキュラムを提供することです。
AEG(Adversarial Environment Generation)を使用して、強化学習(RL)エージェントを訓練する困難なWeb環境を生成することを提案する。
提案するフレキシブルb-PAIRED技術を用いて訓練したナビゲータエージェントは,競争力のある自動カリキュラム生成ベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-03-02T19:19:30Z) - Active Visual Information Gathering for Vision-Language Navigation [115.40768457718325]
視覚言語ナビゲーション(VLN)は、エージェントがフォトリアリスティックな環境の中でナビゲーションの指示を行うためのタスクである。
VLNの重要な課題の1つは、曖昧な指示による不確実性を緩和し、環境の観察を不十分にすることで、堅牢なナビゲーションを行う方法である。
この研究は、人間のナビゲーション行動からインスピレーションを得て、よりインテリジェントなVLNポリシーのためのアクティブな情報収集能力を持つエージェントを提供する。
論文 参考訳(メタデータ) (2020-07-15T23:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。