論文の概要: See and Remember: A Multimodal Agent for Web Traversal
- arxiv url: http://arxiv.org/abs/2603.02626v1
- Date: Tue, 03 Mar 2026 05:55:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.655435
- Title: See and Remember: A Multimodal Agent for Web Traversal
- Title(参考訳): WebトラバーサルのためのマルチモーダルエージェントSee and Remember
- Authors: Xinjun Wang, Shengyao Wang, Aimin Zhou, Hao Hao,
- Abstract要約: V-GEMSは、Webナビゲーションのための堅牢なマルチモーダルエージェントアーキテクチャである。
エージェントは視覚的グラウンド処理を統合し、あいまいな対話的要素を解決し、状態追跡を伴う明示的なメモリスタックを導入する。
実験の結果、V-GEMSはWebWalkerベースラインを著しく上回り、28.7%のパフォーマンス向上を達成した。
- 参考スコア(独自算出の注目度): 19.326814654711296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous web navigation requires agents to perceive complex visual environments and maintain long-term context, yet current Large Language Model (LLM) based agents often struggle with spatial disorientation and navigation loops. In this paper, we propose generally applicable V-GEMS(Visual Grounding and Explicit Memory System), a robust multimodal agent architecture designed for precise and resilient web traversal. Our agent integrates visual grounding to resolve ambiguous interactive elements and introduces an explicit memory stack with state tracking. This dual mechanism allows the agent to maintain a structured map of its traversal path, enabling valid backtracking and preventing cyclical failures in deep navigation tasks. We also introduce an updatable dynamic benchmark to rigorously evaluate adaptability. Experiments show V-GEMS significantly dominates the WebWalker baseline, achieving a substantial 28.7% performance gain. Code is available at https://github.com/Vaultttttttttttt/V-GEMS.
- Abstract(参考訳): 自律的なWebナビゲーションでは、エージェントは複雑な視覚環境を認識し、長期のコンテキストを維持する必要があるが、現在のLarge Language Model(LLM)ベースのエージェントは、しばしば空間的不整合やナビゲーションループに悩まされる。
本稿では,Web トラフィックの正確かつ弾力性に優れたマルチモーダルエージェントアーキテクチャである V-GEMS (Visual Grounding and Explicit Memory System) を提案する。
エージェントは、視覚的グラウンド処理を統合し、あいまいな対話的要素を解決し、ステートトラッキングを備えた明示的なメモリスタックを導入します。
この二重機構により、エージェントはその経路の構造化マップを維持でき、有効なバックトラックを可能にし、深いナビゲーションタスクにおける循環障害を防ぐことができる。
また,適応性を厳格に評価するための動的ベンチマークも導入した。
実験の結果、V-GEMSはWebWalkerベースラインを著しく上回り、28.7%のパフォーマンス向上を達成した。
コードはhttps://github.com/Vaultttttttttttttttt/V-GEMSで公開されている。
関連論文リスト
- OpenFrontier: General Navigation with Visual-Language Grounded Frontiers [54.661157616245966]
オープンワールドナビゲーションでは、複雑な日常環境においてロボットが意思決定を行う必要がある。
近年の視覚-言語ナビゲーション(VLN)と視覚-言語-アクション(VLA)モデルは、自然言語で条件付けられたエンドツーエンドのポリシーを実現する。
多様な視覚をシームレスに統合するトレーニングフリーナビゲーションフレームワークであるOpenFrontierを提案する。
論文 参考訳(メタデータ) (2026-03-05T17:02:22Z) - VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory [43.2995099083993]
VLAモデルは、認識と計画を統合することで、航法を具現化する有望な可能性を示してきた。
既存のVLAモデルは、観察から行動へのリアクティブマッピングに直接依存している。
VLingNav(VLAモデル)を提案する。
論文 参考訳(メタデータ) (2026-01-13T15:43:43Z) - OS-Symphony: A Holistic Framework for Robust and Generalist Computer-Using Agent [58.07447442040785]
私たちはOS-Symphonyを紹介します。これは、堅牢な自動化のための2つの重要なイノベーションをコーディネートするOrchestratorを含む包括的なフレームワークです。
結果は、OS-Symphonyが様々なモデルスケールで大幅なパフォーマンス向上をもたらすことを示した。
論文 参考訳(メタデータ) (2026-01-12T17:55:51Z) - TP-MDDN: Task-Preferenced Multi-Demand-Driven Navigation with Autonomous Decision-Making [90.18833928208333]
Task-Preferenced Multi-Demand-Driven Navigation (TP-MDDN)は、複数のサブオンデマンドと明示的なタスク嗜好を含む長距離ナビゲーションのための新しいベンチマークである。
空間記憶のために,3次元点雲蓄積と2次元意味マッピングを組み合わせたMASMapを設計した。
本手法は,認識精度とナビゲーションの堅牢性の両方において,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-11-21T13:12:13Z) - WebCoach: Self-Evolving Web Agents with Cross-Session Memory Guidance [29.57207599604568]
WebCoachはモデルに依存しない自己進化フレームワークで、Webブラウジングエージェントに永続的なクロスセッションメモリを提供する。
WebCoachは、新しいナビゲーショントラジェクトリから連続的にエピソードメモリをキュレートすることで、自己進化を実現する。
WebVoyagerベンチマークの評価は、WebCoachがブラウザ使用エージェントのパフォーマンスを一貫して改善していることを示している。
論文 参考訳(メタデータ) (2025-11-17T05:38:50Z) - MGA: Memory-Driven GUI Agent for Observation-Centric Interaction [30.45490249299358]
メモリ駆動型GUIエージェント(MGA)を導入し、まず観察の原理に基づいてGUIインタラクションをリフレームし、次に決定する。
MGAは最先端のベースラインに比べてロバスト性、一般化、効率性が著しく向上する。
論文 参考訳(メタデータ) (2025-10-28T08:19:58Z) - R2D2: Remembering, Replaying and Dynamic Decision Making with a Reflective Agentic Memory [53.94879482534949]
現在のモデルは、Web構造の可視化と理解が限られているため、効率的なナビゲーションとアクション実行に苦しむことが多い。
提案したR2D2フレームワークは,2つのパラダイムを統合することで,これらの課題に対処する。
本研究は,記憶を増強したナビゲーションと反射学習を組み合わせることで,Webエージェントの能力が向上することが示唆された。
論文 参考訳(メタデータ) (2025-01-21T20:21:58Z) - Memory Proxy Maps for Visual Navigation [6.1190419149081245]
視覚的なナビゲーションは人間からインスピレーションを受け、視覚を使って、詳細な環境マップを使わずに、これまで見えなかった環境をナビゲートする。
これに触発されて、封建的学習を用いた視覚ナビゲーションのための、No-RL、No-graph、No-odometryアプローチを導入し、3つのタイレッドエージェントを構築した。
論文 参考訳(メタデータ) (2024-11-15T02:37:14Z) - Polyline Based Generative Navigable Space Segmentation for Autonomous
Visual Navigation [57.3062528453841]
ロボットが教師なしの方法で移動可能な空間分割を学習できるようにするための表現学習ベースのフレームワークを提案する。
提案するPSV-Netは,単一のラベルを使わずとも,高精度で視覚ナビゲーション可能な空間を学習可能であることを示す。
論文 参考訳(メタデータ) (2021-10-29T19:50:48Z) - Semantic Tracklets: An Object-Centric Representation for Visual
Multi-Agent Reinforcement Learning [126.57680291438128]
本研究では,不整合表現によるスケーラビリティの実現について検討する。
視覚多エージェント粒子環境(VMPE)と視覚多エージェントGFootball環境における意味トラックレット'の評価を行った。
特に,この手法は視覚データのみを用いて,GFootball環境における5人のプレイヤーの戦略を学習した最初の方法である。
論文 参考訳(メタデータ) (2021-08-06T22:19:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。