論文の概要: Cybernaut: Towards Reliable Web Automation
- arxiv url: http://arxiv.org/abs/2508.16688v1
- Date: Thu, 21 Aug 2025 18:39:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.124544
- Title: Cybernaut: Towards Reliable Web Automation
- Title(参考訳): Cybernaut: 信頼性の高いWebオートメーションを目指す
- Authors: Ankur Tomar, Hengyue Liang, Indranil Bhattacharya, Natalia Larios, Francesco Carbone,
- Abstract要約: Cybernautは、堅牢なエンタープライズ利用のために設計されたWebオートメーションエージェントにおいて、高い実行一貫性を保証する新しいフレームワークである。
1) ユーザデモを線形ブラウジングタスクの信頼性の高い自動化命令に変換するSOPジェネレータ,(2) 複雑なWebインターフェースの課題に合わせた高精度なHTML DOM要素認識システム,(3) 実行の整合性を評価するための定量的メトリクス。
- 参考スコア(独自算出の注目度): 1.885569013569835
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The emergence of AI-driven web automation through Large Language Models (LLMs) offers unprecedented opportunities for optimizing digital workflows. However, deploying such systems within industry's real-world environments presents four core challenges: (1) ensuring consistent execution, (2) accurately identifying critical HTML elements, (3) meeting human-like accuracy in order to automate operations at scale and (4) the lack of comprehensive benchmarking data on internal web applications. Existing solutions are primarily tailored for well-designed, consumer-facing websites (e.g., Amazon.com, Apple.com) and fall short in addressing the complexity of poorly-designed internal web interfaces. To address these limitations, we present Cybernaut, a novel framework to ensure high execution consistency in web automation agents designed for robust enterprise use. Our contributions are threefold: (1) a Standard Operating Procedure (SOP) generator that converts user demonstrations into reliable automation instructions for linear browsing tasks, (2) a high-precision HTML DOM element recognition system tailored for the challenge of complex web interfaces, and (3) a quantitative metric to assess execution consistency. The empirical evaluation on our internal benchmark demonstrates that using our framework enables a 23.2% improvement (from 72% to 88.68%) in task execution success rate over the browser_use. Cybernaut identifies consistent execution patterns with 84.7% accuracy, enabling reliable confidence assessment and adaptive guidance during task execution in real-world systems. These results highlight Cybernaut's effectiveness in enterprise-scale web automation and lay a foundation for future advancements in web automation.
- Abstract(参考訳): 大規模言語モデル(LLM)によるAI駆動のWeb自動化の出現は、ディジタルワークフローを最適化する前例のない機会を提供する。
しかし,このようなシステムを業界の実環境に展開することは,(1)一貫した実行の確保,(2)重要なHTML要素の正確な識別,(3)大規模運用を自動化するための人間的な精度の達成,(4)内部Webアプリケーション上での包括的なベンチマークデータの欠如,の4つの課題を示す。
既存のソリューションは主に、よく設計されたコンシューマ向けWebサイト(Amazon.com、Apple.comなど)向けに最適化されており、設計が不十分な内部Webインターフェースの複雑さに対処するには不十分である。
このような制限に対処するために、私たちはCybernautという、堅牢な企業利用のために設計されたWeb自動化エージェントの高実行一貫性を保証する新しいフレームワークを紹介します。
1) ユーザデモを線形ブラウジングタスクの信頼性の高い自動化命令に変換する標準動作手順(SOP)ジェネレータ,(2) 複雑なWebインターフェースの課題に適した高精度なHTML DOM要素認識システム,(3) 実行の一貫性を評価するための定量的な指標である。
内部ベンチマークによる実証評価では,ブラウザ利用によるタスク実行成功率の23.2%(72%から88.68%)の向上を実現している。
サイバーノートは84.7%の精度で一貫した実行パターンを特定し、現実のシステムにおけるタスク実行中の信頼性評価と適応ガイダンスを可能にする。
これらの結果は,企業規模のWebオートメーションにおけるCybernautの有効性を浮き彫りにし,Webオートメーションの将来的な進歩の基礎を築いた。
関連論文リスト
- WebGames: Challenging General-Purpose Web-Browsing AI Agents [11.320069795732058]
WebGamesは汎用的なWebブラウザAIエージェントを評価するために設計された包括的なベンチマークスイートである。
GPT-4o, Claude Computer-Use, Gemini-1.5-Pro, Qwen2-VLなどの視覚言語モデルを人為的性能に対して評価した。
その結果、最高のAIシステムは、人間のパフォーマンスが95.7%であるのに対して、43.1%の成功率しか達成していない。
論文 参考訳(メタデータ) (2025-02-25T16:45:08Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models [65.18602126334716]
既存のWebエージェントは1つの入力モダリティしか処理せず、単純化されたWebシミュレータや静的なWebスナップショットでのみ評価される。
我々は,WebVoyagerを紹介した。LMM(Large Multimodal Model)を利用したWebエージェントで,現実世界のWebサイトと対話することで,エンド・ツー・エンドでのユーザ指示を完了することができる。
GPT-4(All Tools)とWebVoyager(text-only)の両方のパフォーマンスを大幅に上回る、59.1%のタスク成功率を実現していることを示す。
論文 参考訳(メタデータ) (2024-01-25T03:33:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。