論文の概要: Avenir-Web: Human-Experience-Imitating Multimodal Web Agents with Mixture of Grounding Experts
- arxiv url: http://arxiv.org/abs/2602.02468v1
- Date: Mon, 02 Feb 2026 18:50:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.379951
- Title: Avenir-Web: Human-Experience-Imitating Multimodal Web Agents with Mixture of Grounding Experts
- Title(参考訳): Avenir-Web: グラウンドの専門家の混在による経験を欠くマルチモーダルWebエージェント
- Authors: Aiden Yiliu Li, Xinyue Hao, Shilong Liu, Mengdi Wang,
- Abstract要約: Avenir-Webは、現実世界のデプロイにおいて、Online-Mind2Webベンチマークの新たなオープンソース状態を達成するWebエージェントである。
Avenir-Web on Online-Mind2Web, a rigorous benchmark of live and user-centered web task。
- 参考スコア(独自算出の注目度): 59.68272935616536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite advances in multimodal large language models, autonomous web agents still struggle to reliably execute long-horizon tasks on complex and dynamic web interfaces. Existing agents often suffer from inaccurate element grounding, the absence of site-specific procedural knowledge, and unstable long-term task tracking and memory, particularly when operating over complex Document Object Model structures. To address these limitations, we introduce Avenir-Web, a web agent that achieves a new open-source state of the art on the Online-Mind2Web benchmark in real-world deployment. Avenir-Web leverages a Mixture of Grounding Experts, Experience-Imitation Planning for incorporating procedural priors, and a task-tracking checklist combined with adaptive memory to enable robust and seamless interaction across diverse user interface paradigms. We evaluate Avenir-Web on Online-Mind2Web, a rigorous benchmark of live and user-centered web tasks. Our results demonstrate that Avenir-Web significantly surpasses prior open-source agents and attains performance parity with top-tier proprietary models, thereby establishing a new open-source state of the art for reliable web agents on live websites.
- Abstract(参考訳): マルチモーダルな大規模言語モデルの発展にもかかわらず、自律的なWebエージェントは、複雑で動的なWebインターフェース上で長い水平タスクを確実に実行するのに苦労している。
既存のエージェントは、しばしば不正確な要素の接地、サイト固有の手続き的知識の欠如、不安定な長期タスクの追跡とメモリ、特に複雑なドキュメントオブジェクトモデル構造を操作する際に悩まされる。
これらの制限に対処するため、実世界のデプロイにおいて、Online-Mind2Webベンチマークで新しい最先端のオープンソースを実現するWebエージェントであるAvenir-Webを紹介します。
Avenir-Webは、グラウンディングエキスパートの混合、手続き的な事前処理を組み込むエクスペリエンス・イミテーションプランニング、タスク追跡チェックリストとアダプティブメモリを組み合わせることで、多様なユーザインターフェースパラダイム間の堅牢でシームレスな相互作用を可能にする。
Avenir-Web on Online-Mind2Web, a rigorous benchmark of live and user-centered web task。
以上の結果から,Avenir-Webは従来のオープンソースエージェントをはるかに上回り,上位レベルのプロプライエタリモデルと同等性能を実現し,ライブWebサイト上で信頼性の高いWebエージェントのための新たなオープンソースステート・オブ・ザ・アーティファクトを確立した。
関連論文リスト
- Building the Web for Agents: A Declarative Framework for Agent-Web Interaction [0.7116403133334644]
我々は、WebサイトがAIエージェントの信頼性、監査可能、プライバシ保護機能を公開できるWebネイティブフレームワークVOIXを紹介した。
VOIXはツール>とコンテキスト>タグを導入し、開発者は利用可能なアクションと関連する状態を明確に定義できる。
16人の開発者を対象とした3日間のハッカソン研究で,本フレームワークの実用性,学習性,表現性を評価した。
論文 参考訳(メタデータ) (2025-11-14T13:23:34Z) - Build the web for agents, not agents for the web [27.969222950526703]
本稿では,エージェントがWebサイトをナビゲートするためのインターフェースであるAWI(Agentic Web Interface)の概念を紹介する。
AWI設計の原則を6つ確立し,安全性,効率,標準化を重視した。
このリフレーミングは、既存のインターフェイスの基本的な制限を克服し、より効率的で信頼性があり透明なWebエージェント設計への道を開くことを目的としています。
論文 参考訳(メタデータ) (2025-06-12T17:53:58Z) - On the Multi-turn Instruction Following for Conversational Web Agents [83.51251174629084]
本稿では,ユーザと環境の両方で複数回にまたがる高度なインタラクションを必要とする,対話型Webナビゲーションの新たなタスクを紹介する。
本稿では,メモリ利用と自己回帰技術を用いた自己反射型メモリ拡張計画(Self-MAP)を提案する。
論文 参考訳(メタデータ) (2024-02-23T02:18:12Z) - WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models [65.18602126334716]
既存のWebエージェントは1つの入力モダリティしか処理せず、単純化されたWebシミュレータや静的なWebスナップショットでのみ評価される。
我々は,WebVoyagerを紹介した。LMM(Large Multimodal Model)を利用したWebエージェントで,現実世界のWebサイトと対話することで,エンド・ツー・エンドでのユーザ指示を完了することができる。
GPT-4(All Tools)とWebVoyager(text-only)の両方のパフォーマンスを大幅に上回る、59.1%のタスク成功率を実現していることを示す。
論文 参考訳(メタデータ) (2024-01-25T03:33:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。