Fugu-MT 論文翻訳(概要): Surfer 2: The Next Generation of Cross-Platform Computer Use Agents

論文の概要: Surfer 2: The Next Generation of Cross-Platform Computer Use Agents

arxiv url: http://arxiv.org/abs/2510.19949v1
Date: Wed, 22 Oct 2025 18:21:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-25 03:08:16.628634
Title: Surfer 2: The Next Generation of Cross-Platform Computer Use Agents
Title（参考訳）: Surfer 2:次世代のクロスプラットフォームコンピュータ利用エージェント
Authors: Mathieu Andreux, Märt Bakler, Yanael Barbier, Hamza Ben Chekroun, Emilien Biré, Antoine Bonnet, Riaz Bordie, Nathan Bout, Matthias Brunel, Aleix Cambray, Pierre-Louis Cedoz, Antoine Chassang, Gautier Cloix, Ethan Connelly, Alexandra Constantinou, Ramzi De Coster, Hubert de la Jonquiere, Aurélien Delfosse, Maxime Delpit, Alexis Deprez, Augustin Derupti, Mathieu Diaz, Shannon D'Souza, Julie Dujardin, Abai Edmund, Michael Eickenberg, Armand Fatalot, Wissem Felissi, Isaac Herring, Xavier Koegler, Erwan Le Jumeau de Kergaradec, Aurélien Lac, Maxime Langevin, Corentin Lauverjat, Antonio Loison, Avshalom Manevich, Axel Moyal, Axel Nguyen Kerbel, Marinela Parovic, Julien Revelle, Guillaume Richard, Mats Richter, Ronan Riochet, María Santos, Romain Savidan, Laurent Sifre, Maxime Theillard, Marc Thibault, Ivan Valentini, Tony Wu, Laura Yie, Kai Yuan, Jevgenij Zubovskij,
Abstract要約: Surfer 2は3つの環境すべてにわたって最先端のパフォーマンスを実現する統一アーキテクチャである。 WebVoyagerでは97.1%の精度、WebArenaでは69.6%の精度、OSWorldでは60.1%、AndroidWorldでは87.1%の精度が達成され、タスク固有の微調整を伴わない以前のシステムよりも優れていた。
参考スコア（独自算出の注目度）: 27.60777497984866
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Building agents that generalize across web, desktop, and mobile environments remains an open challenge, as prior systems rely on environment-specific interfaces that limit cross-platform deployment. We introduce Surfer 2, a unified architecture operating purely from visual observations that achieves state-of-the-art performance across all three environments. Surfer 2 integrates hierarchical context management, decoupled planning and execution, and self-verification with adaptive recovery, enabling reliable operation over long task horizons. Our system achieves 97.1% accuracy on WebVoyager, 69.6% on WebArena, 60.1% on OSWorld, and 87.1% on AndroidWorld, outperforming all prior systems without task-specific fine-tuning. With multiple attempts, Surfer 2 exceeds human performance on all benchmarks. These results demonstrate that systematic orchestration amplifies foundation model capabilities and enables general-purpose computer control through visual interaction alone, while calling for a next-generation vision language model to achieve Pareto-optimal cost-efficiency.
Abstract（参考訳）: 従来のシステムは、クロスプラットフォームのデプロイメントを制限する環境固有のインターフェースに依存していたため、Web、デスクトップ、モバイル環境にまたがる汎用エージェントの構築は、依然としてオープンな課題である。視覚的観察から純粋に動作する統一アーキテクチャであるSurfer 2を導入し、3つの環境すべてにわたって最先端のパフォーマンスを実現する。 Surfer 2は階層的なコンテキスト管理、分離された計画と実行、適応的回復による自己検証を統合し、長いタスクの地平線上での信頼性の高い操作を可能にする。このシステムはWebVoyagerで97.1%の精度、WebArenaで69.6%、OSWorldで60.1%、AndroidWorldで87.1%の精度を達成し、タスク固有の微調整なしで従来のシステムよりも優れていた。複数の試みにより、Surfer 2はすべてのベンチマークで人間のパフォーマンスを上回っている。これらの結果から,組織的オーケストレーションは基礎モデル能力を増幅し,視覚的相互作用のみで汎用的なコンピュータ制御を可能にする一方で,パレート最適コスト効率を実現するために次世代の視覚言語モデルを求めていることが示唆された。

関連論文リスト

OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task Execution [32.992104943415995]
OmegaUseは、モバイルプラットフォームとデスクトッププラットフォームの両方で自律的なタスク実行のための汎用GUIエージェントモデルである。既存のGUIベンチマークでは高い競争力があり、ScreenSpot-V2で96.3%のSOTA(State-of-the-art)スコアを達成している。 OS-Navでは74.24%がChiM-Navで、平均55.9%がUbu-Navで成功している。
論文参考訳（メタデータ） (2026-01-28T08:45:17Z)
OS-Symphony: A Holistic Framework for Robust and Generalist Computer-Using Agent [58.07447442040785]
私たちはOS-Symphonyを紹介します。これは、堅牢な自動化のための2つの重要なイノベーションをコーディネートするOrchestratorを含む包括的なフレームワークです。結果は、OS-Symphonyが様々なモデルスケールで大幅なパフォーマンス向上をもたらすことを示した。
論文参考訳（メタデータ） (2026-01-12T17:55:51Z)
OS-Oracle: A Comprehensive Framework for Cross-Platform GUI Critic Models [54.44308299945632]
クロスプラットフォームGUI批判データのためのスケーラブルなデータパイプライン、教師付き微調整と一貫性保護グループによる相対的なポリシー最適化を組み合わせた2段階のトレーニングパラダイム、モバイル、Web、デスクトッププラットフォームにおける批判モデルのパフォーマンスを評価するための総合ベンチマークであるOS-Critic Benchの3つのコアコントリビューションを紹介します。結果として得られた批判モデルであるOS-Oracle-7Bは、OS-Critic Bench上のオープンソースのVLMの最先端のパフォーマンスを達成し、モバイルドメインのプロプライエタリモデルを上回っている。
論文参考訳（メタデータ） (2025-12-18T08:29:50Z)
Hi-Agent: Hierarchical Vision-Language Agents for Mobile Device Control [72.43808515668947]
モバイル制御のためのトレーニング可能な階層型視覚言語エージェントであるHi-Agentを紹介する。 Hi-Agentは高レベルの推論モデルと、共同最適化された低レベルのアクションモデルを備えている。 Hi-Agentは、Android-in-the-Wild(AitW)ベンチマークで、新しいState-Of-The-Art(SOTA)87.9%タスクの成功率を達成した。
論文参考訳（メタデータ） (2025-10-16T07:38:21Z)
UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning [155.51875080423883]
グラフィカルユーザインタフェースのための自律エージェントの開発は、人工知能における大きな課題を示している。本稿では,GUI中心のエージェントモデルであるUI-TARS-2を提案する。実証的な評価では、UI-TARS-2は以前のUI-TARS-1.5よりも大幅に改善されている。
論文参考訳（メタデータ） (2025-09-02T17:44:45Z)
WebSight: A Vision-First Architecture for Robust Web Agents [0.0]
WebSightは視覚的知覚によって純粋にWeb環境と対話するように設計された視覚ベースのWebエージェントである。 UI要素のインタラクションに最適化された視覚言語モデルであるWebSight-7Bを紹介する。 WebSight-7BはShowdown Clicksベンチマークで58.84%のトップ1の精度を達成し、より大規模なジェネラリストモデルを上回った。 WebSightとWebSight-7Bは、解釈可能で堅牢で効率的なビジュアルWebナビゲーションのための新しい標準を確立する。
論文参考訳（メタデータ） (2025-08-23T11:02:59Z)
Cybernaut: Towards Reliable Web Automation [1.885569013569835]
Cybernautは、堅牢なエンタープライズ利用のために設計されたWebオートメーションエージェントにおいて、高い実行一貫性を保証する新しいフレームワークである。 1) ユーザデモを線形ブラウジングタスクの信頼性の高い自動化命令に変換するSOPジェネレータ,(2) 複雑なWebインターフェースの課題に合わせた高精度なHTML DOM要素認識システム,(3) 実行の整合性を評価するための定量的メトリクス。
論文参考訳（メタデータ） (2025-08-21T18:39:35Z)
Agent S2: A Compositional Generalist-Specialist Framework for Computer Use Agents [30.253353551910404]
コンピュータ利用エージェントは、コンピュータやモバイルデバイスのグラフィカルユーザインタフェース(GUI)と直接対話することで、デジタルタスクを自動化する。本稿では,様々なジェネラリストおよびスペシャリストモデルにまたがって認知的責任を委譲する新しい構成フレームワークであるAgens S2を紹介する。 Agent S2は、3つの著名なコンピュータ使用ベンチマーク上でのSOTA(State-of-the-art)のパフォーマンスを確立する。
論文参考訳（メタデータ） (2025-04-01T15:40:27Z)
Helios 2.0: A Robust, Ultra-Low Power Gesture Recognition System Optimised for Event-Sensor based Wearables [0.8677035729963776]
我々は,スマートグラスの自然な手の動き制御を可能にする,モバイル最適化,リアルタイム,超低消費電力イベントカメラシステムを提案する。我々のアプローチは、慎重に選択されたマイクロゲインを通して課題に取り組む。これらの人間中心のインタラクションは、ユーザが複雑なコマンドシーケンスを学習することなく、自然な手の動きを活用して、直感的なユーザビリティを確保する。
論文参考訳（メタデータ） (2025-03-10T20:12:06Z)
WebGames: Challenging General-Purpose Web-Browsing AI Agents [11.320069795732058]
WebGamesは汎用的なWebブラウザAIエージェントを評価するために設計された包括的なベンチマークスイートである。 GPT-4o, Claude Computer-Use, Gemini-1.5-Pro, Qwen2-VLなどの視覚言語モデルを人為的性能に対して評価した。その結果、最高のAIシステムは、人間のパフォーマンスが95.7%であるのに対して、43.1%の成功率しか達成していない。
論文参考訳（メタデータ） (2025-02-25T16:45:08Z)
OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments [87.41051677852231]
マルチモーダルエージェントのための,第1世代のスケーラブルな実コンピュータ環境であるOSWorldを紹介する。 OSWorldは、オープンエンドのコンピュータタスクを評価する統合されたコンピュータ環境として機能する。オープンドメインの実際のWebおよびデスクトップアプリケーション、OSファイルI/O、複数のアプリケーションにまたがる369のコンピュータタスクのベンチマークを作成します。
論文参考訳（メタデータ） (2024-04-11T17:56:05Z)
CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation [73.78984332354636]
CorNavは視覚・言語ナビゲーションのための新しいゼロショットフレームワークである。将来の計画の見直しや行動調整のための環境フィードバックが組み込まれている。ゼロショットマルチタスク設定ですべてのベースラインを一貫して上回る。
論文参考訳（メタデータ） (2023-06-17T11:44:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。