論文の概要: MolmoWeb: Open Visual Web Agent and Open Data for the Open Web
- arxiv url: http://arxiv.org/abs/2604.08516v1
- Date: Thu, 09 Apr 2026 17:54:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:06.061066
- Title: MolmoWeb: Open Visual Web Agent and Open Data for the Open Web
- Title(参考訳): MolmoWeb: Open Visual Web AgentとOpen Data for the Open Web
- Authors: Tanmay Gupta, Piper Wolters, Zixian Ma, Peter Sushko, Rock Yuren Pang, Diego Llanes, Yue Yang, Taira Anderson, Boyuan Zheng, Zhongzheng Ren, Harsh Trivedi, Taylor Blanton, Caleb Ouellette, Winson Han, Ali Farhadi, Ranjay Krishna,
- Abstract要約: MolmoWebMixはブラウザのタスクとWeb-GUIの知覚データを組み合わせたものだ。
MolmoWeb-8Bは、完全にオープンなマルチモーダルWebエージェントのファミリーである。
我々は、Webエージェントのオープンな研究を可能にするため、モデルチェックポイント、トレーニングデータ、コード、統一された評価ハーネスをリリースする。
- 参考スコア(独自算出の注目度): 60.29597961827816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Web agents--autonomous systems that navigate and execute tasks on the web on behalf of users--have the potential to transform how people interact with the digital world. However, the most capable web agents today rely on proprietary models with undisclosed training data and recipes, limiting scientific understanding, reproducibility, and community-driven progress. We believe agents for the open web should be built in the open. To this end, we introduce (1) MolmoWebMix, a large and diverse mixture of browser task demonstrations and web-GUI perception data and (2) MolmoWeb, a family of fully open multimodal web agents. Specifically, MolmoWebMix combines over 100K synthetic task trajectories from multiple complementary generation pipelines with 30K+ human demonstrations, atomic web-skill trajectories, and GUI perception data, including referring expression grounding and screenshot question answering. MolmoWeb agents operate as instruction-conditioned visual-language action policies: given a task instruction and a webpage screenshot, they predict the next browser action, requiring no access to HTML, accessibility trees, or specialized APIs. Available in 4B and 8B size, on browser-use benchmarks like WebVoyager, Online-Mind2Web, and DeepShop, MolmoWeb agents achieve state-of-the-art results outperforming similar scale open-weight-only models such as Fara-7B, UI-Tars-1.5-7B, and Holo1-7B. MolmoWeb-8B also surpasses set-of-marks (SoM) agents built on much larger closed frontier models like GPT-4o. We further demonstrate consistent gains through test-time scaling via parallel rollouts with best-of-N selection, achieving 94.7% and 60.5% pass@4 (compared to 78.2% and 35.3% pass@1) on WebVoyager and Online-Mind2Web respectively. We will release model checkpoints, training data, code, and a unified evaluation harness to enable reproducibility and accelerate open research on web agents.
- Abstract(参考訳): Webエージェント – ユーザに代わってWeb上でタスクをナビゲートし実行する自律システム – は,人々がデジタル世界と対話する方法を変革する可能性を持っている。
しかし、今日の最も有能なWebエージェントは、科学的な理解、再現性、およびコミュニティ主導の進歩を制限する、未公表のトレーニングデータとレシピを持つプロプライエタリなモデルに依存している。
オープンなWebのエージェントは、オープンに構築されるべきである、と私たちは信じています。
この目的のために,(1)MolmoWebMix,(1)ブラウザタスクとWeb-GUI知覚データの多種多様な混合,(2)MolmoWeb,(2)完全にオープンなマルチモーダルWebエージェントのファミリーを紹介する。
具体的には、M MolmoWebMixは、複数の補完的な生成パイプラインから合成された100K以上のタスクトラジェクトリと、30K以上の人間のデモ、アトミックなWebスキルトラジェクトリ、GUI知覚データを組み合わせる。
MolmoWebエージェントは、タスク命令とWebページのスクリーンショットが与えられたら、次のブラウザアクションを予測し、HTML、アクセシビリティツリー、特別なAPIへのアクセスを必要としない。
4Bと8Bサイズで、WebVoyager、Online-Mind2Web、DeepShopなどのブラウザ使用ベンチマークで、MomoWebエージェントは、Fara-7B、UI-Tars-1.5-7B、Holo1-7Bのような、同様のスケールのオープンウェイトオンリーモデルよりもパフォーマンスが優れている。
MolmoWeb-8B は GPT-4o のような大型のクローズドフロンティアモデル上に構築されたset-of-marks (SoM) エージェントを超越している。
さらに、WebVoyagerとOnline-Mind2Webで94.7%、60.5%のpass@4(それぞれ78.2%、35.3%のpass@1)を達成した。
我々は、再現性を実現し、Webエージェントのオープンな研究を加速するために、モデルチェックポイント、トレーニングデータ、コード、統一された評価ハーネスをリリースする。
関連論文リスト
- WebSight: A Vision-First Architecture for Robust Web Agents [0.0]
WebSightは視覚的知覚によって純粋にWeb環境と対話するように設計された視覚ベースのWebエージェントである。
UI要素のインタラクションに最適化された視覚言語モデルであるWebSight-7Bを紹介する。
WebSight-7BはShowdown Clicksベンチマークで58.84%のトップ1の精度を達成し、より大規模なジェネラリストモデルを上回った。
WebSightとWebSight-7Bは、解釈可能で堅牢で効率的なビジュアルWebナビゲーションのための新しい標準を確立する。
論文 参考訳(メタデータ) (2025-08-23T11:02:59Z) - MMInA: Benchmarking Multihop Multimodal Internet Agents [36.173995299002]
本稿では,マルチホップとマルチモーダルのベンチマークであるMMInAについて述べる。
私たちのデータには、ショッピングや旅行など、さまざまな分野をカバーする1050の人書きタスクが含まれています。
マルチホップタスクの完了におけるエージェントの進捗を評価するための新しいプロトコルを提案する。
論文 参考訳(メタデータ) (2024-04-15T17:59:50Z) - WebLINX: Real-World Website Navigation with Multi-Turn Dialogue [23.71601972991744]
WEBLINXは,対話型Webナビゲーションの2300人の専門家による実演における100Kインタラクションのベンチマークである。
私たちのベンチマークでは、150以上の現実世界のWebサイト上の幅広いパターンをカバーし、さまざまなシナリオにおけるエージェントのトレーニングと評価に使用しています。
選択した要素とスクリーンショットとアクション履歴を使用して、Webをナビゲートする際の人間の振る舞いを再現するさまざまなモデルを評価します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models [65.18602126334716]
既存のWebエージェントは1つの入力モダリティしか処理せず、単純化されたWebシミュレータや静的なWebスナップショットでのみ評価される。
我々は,WebVoyagerを紹介した。LMM(Large Multimodal Model)を利用したWebエージェントで,現実世界のWebサイトと対話することで,エンド・ツー・エンドでのユーザ指示を完了することができる。
GPT-4(All Tools)とWebVoyager(text-only)の両方のパフォーマンスを大幅に上回る、59.1%のタスク成功率を実現していることを示す。
論文 参考訳(メタデータ) (2024-01-25T03:33:18Z) - Multimodal Web Navigation with Instruction-Finetuned Foundation Models [99.14209521903854]
視覚言語基礎モデルを用いたWebエージェントのためのデータ駆動オフライントレーニングについて検討する。
本稿では,WebページのスクリーンショットとHTMLページの両方を観察する命令追従型マルチモーダルエージェントWebGUMを提案する。
このレシピは,マルチモーダル認識,HTML理解,マルチステップ推論といったエージェントの能力を向上させることを実証的に実証する。
論文 参考訳(メタデータ) (2023-05-19T17:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。