論文の概要: Surfer-H Meets Holo1: Cost-Efficient Web Agent Powered by Open Weights
- arxiv url: http://arxiv.org/abs/2506.02865v2
- Date: Wed, 11 Jun 2025 09:33:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 02:07:43.246228
- Title: Surfer-H Meets Holo1: Cost-Efficient Web Agent Powered by Open Weights
- Title(参考訳): Surfer-HがHolo1を発表: オープンウェイトによる費用効率の良いWebエージェント
- Authors: Mathieu Andreux, Breno Baldas Skuk, Hamza Benchekroun, Emilien Biré, Antoine Bonnet, Riaz Bordie, Nathan Bout, Matthias Brunel, Pierre-Louis Cedoz, Antoine Chassang, Mickaël Chen, Alexandra D. Constantinou, Antoine d'Andigné, Hubert de La Jonquière, Aurélien Delfosse, Ludovic Denoyer, Alexis Deprez, Augustin Derupti, Michael Eickenberg, Mathïs Federico, Charles Kantor, Xavier Koegler, Yann Labbé, Matthew C. H. Lee, Erwan Le Jumeau de Kergaradec, Amir Mahla, Avshalom Manevich, Adrien Maret, Charles Masson, Rafaël Maurin, Arturo Mena, Philippe Modard, Axel Moyal, Axel Nguyen Kerbel, Julien Revelle, Mats L. Richter, María Santos, Laurent Sifre, Maxime Theillard, Marc Thibault, Louis Thiry, Léo Tronchon, Nicolas Usunier, Tony Wu,
- Abstract要約: Surfer-Hは、Vision-Language Models (VLM)を統合してWeb上でユーザ定義タスクを実行するコスト効率のよいWebエージェントである。
私たちは、Webナビゲーションと情報抽出に特化した、新しいオープンウェイトなVLMコレクションであるHolo1と組み合わせました。
Holo1を使用すると、Surfer-HはWebVoyagerで92.2%の最先端のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 39.00829015201072
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Surfer-H, a cost-efficient web agent that integrates Vision-Language Models (VLM) to perform user-defined tasks on the web. We pair it with Holo1, a new open-weight collection of VLMs specialized in web navigation and information extraction. Holo1 was trained on carefully curated data sources, including open-access web content, synthetic examples, and self-produced agentic data. Holo1 tops generalist User Interface (UI) benchmarks as well as our new web UI localization benchmark, WebClick. When powered by Holo1, Surfer-H achieves a 92.2% state-of-the-art performance on WebVoyager, striking a Pareto-optimal balance between accuracy and cost-efficiency. To accelerate research advancement in agentic systems, we are open-sourcing both our WebClick evaluation dataset and the Holo1 model weights.
- Abstract(参考訳): We present Surfer-H, a cost- efficient web agent that integrates Vision-Language Models (VLM) to perform user-defined task on the web。
私たちは、Webナビゲーションと情報抽出に特化した、新しいオープンウェイトなVLMコレクションであるHolo1と組み合わせました。
Holo1は、オープンアクセスWebコンテンツ、合成サンプル、自己生成エージェントデータなど、慎重にキュレートされたデータソースで訓練された。
Holo1は、ジェネラリストのUI(User Interface)ベンチマークと、新しいWeb UIローカライゼーションベンチマークであるWebClickでトップです。
Holo1を搭載したSurfer-Hは、WebVoyagerの92.2%の最先端性能を実現し、精度とコスト効率のパレート最適バランスを達成した。
エージェントシステムの研究開発を加速するため、私たちはWebClick評価データセットとHolo1モデルウェイトの両方をオープンソース化しています。
関連論文リスト
- Web-Shepherd: Advancing PRMs for Reinforcing Web Agents [12.928605558358464]
ステップレベルのWebナビゲーショントラジェクトリを評価するために,Web-Shepherdと呼ばれる最初のプロセス報酬モデル(PRM)を提案する。
実験では,WebRewardBenchでGPT-4oを使用する場合と比較して,Web-Shepherdの精度は約30ポイント向上した。
論文 参考訳(メタデータ) (2025-05-21T08:56:55Z) - Talk2X -- An Open-Source Toolkit Facilitating Deployment of LLM-Powered Chatbots on the Web [4.672906650393819]
本稿では,適応型検索拡張生成手法を利用したオープンソースエージェントTalk2Xを提案する。
Talk2Xのアーキテクチャは、開発者が統合に使えるツールを提供する任意のウェブサイトに一般化できる。
我々の発見は、ウェブ上の情報へのアクセス方法のパラダイムシフトに技術的進歩をもたらしている。
論文 参考訳(メタデータ) (2025-04-04T10:58:57Z) - GUIDE: Graphical User Interface Data for Execution [0.0]
GUIDEは、MLLM(Multimodal Large Language Model)アプリケーションの開発に適した、新しいデータセットである。
私たちのデータセットは、Apollo(62.67%)、Gmail(.43%)、Calendar(22.92%)など、さまざまなWebサイトのさまざまなデータを含んでいる。
論文 参考訳(メタデータ) (2024-04-09T11:59:41Z) - WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models [65.18602126334716]
既存のWebエージェントは1つの入力モダリティしか処理せず、単純化されたWebシミュレータや静的なWebスナップショットでのみ評価される。
我々は,WebVoyagerを紹介した。LMM(Large Multimodal Model)を利用したWebエージェントで,現実世界のWebサイトと対話することで,エンド・ツー・エンドでのユーザ指示を完了することができる。
GPT-4(All Tools)とWebVoyager(text-only)の両方のパフォーマンスを大幅に上回る、59.1%のタスク成功率を実現していることを示す。
論文 参考訳(メタデータ) (2024-01-25T03:33:18Z) - AllTogether: Investigating the Efficacy of Spliced Prompt for Web
Navigation using Large Language Models [2.234037966956278]
タスクコンテキスト表現を強化する標準化されたプロンプトテンプレートであるAllTogetherを紹介する。
我々は,オープンソースのLlama-2とAPIアクセス可能なGPTモデルに基づいて,素早い学習と指導の微調整により,このアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2023-10-20T11:10:14Z) - A Real-World WebAgent with Planning, Long Context Understanding, and
Program Synthesis [69.15016747150868]
本稿では,WebAgentについて紹介する。WebAgentは自己経験から学習し,実際のWebサイト上でタスクを完了させるエージェントである。
WebAgentは、指示を標準のサブ命令に分解し、長いHTMLドキュメントをタスク関連スニペットに要約し、ウェブサイトで作用する計画である。
我々は、我々のモジュラーレシピが実際のWebサイトの成功を50%以上改善し、HTML-T5が様々なHTML理解タスクを解決する最良のモデルであることを実証的に実証した。
論文 参考訳(メタデータ) (2023-07-24T14:56:30Z) - The Klarna Product Page Dataset: Web Element Nomination with Graph
Neural Networks and Large Language Models [51.39011092347136]
私たちはKlarna Product Pageデータセットを紹介します。これは、豊かさと多様性で既存のデータセットを超えるWebページの集合です。
我々は、Web要素指名タスクにおいて、GNN(Graph Neural Networks)の範囲を実証的にベンチマークする。
第2に、各ページから少数の関連要素を識別する訓練改善手順を導入する。
第3に,推薦精度をさらに高める新たなトレーニング手法であるChallenge Nomination Training procedureを導入する。
論文 参考訳(メタデータ) (2021-11-03T12:13:52Z) - Webly Supervised Fine-Grained Recognition: Benchmark Datasets and An
Approach [115.91099791629104]
WebFG-496 と WebiNat-5089 の2つの新しいベンチマークを構築した。
WebiNat-5089には5089のサブカテゴリと1100万以上のWebトレーニングイメージが含まれている。
そこで本研究では,これらのデータセットのベンチマークを行うための新しいウェブ教師付き手法("Peer-learning'" と呼ぶ)を提案する。
論文 参考訳(メタデータ) (2021-08-05T06:28:32Z) - HoloLens 2 Research Mode as a Tool for Computer Vision Research [45.404600947276826]
HoloLens 2 Research Mode、API、および生のセンサーストリームへのアクセスを可能にする一連のツールを紹介します。
APIの概要を提供し、複合現実アプリケーションの構築にどのように使用できるかを説明します。
また、Research Modeセンサーのデータと、目と手の動きの追跡機能を組み合わせる方法についても紹介する。
論文 参考訳(メタデータ) (2020-08-25T19:05:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。