論文の概要: Building Browser Agents: Architecture, Security, and Practical Solutions
- arxiv url: http://arxiv.org/abs/2511.19477v1
- Date: Sat, 22 Nov 2025 12:18:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.02245
- Title: Building Browser Agents: Architecture, Security, and Practical Solutions
- Title(参考訳): ブラウザエージェントの構築 - アーキテクチャ、セキュリティ、実践的なソリューション
- Authors: Aram Vardanyan,
- Abstract要約: 本稿では,実運用ブラウザエージェントの構築と運用から得られた知見について述べる。
モデル能力はエージェントのパフォーマンスを制限しない。
現実世界のインシデントに対するセキュリティ分析は、インジェクションの迅速な攻撃によって、汎用的な自律運転が基本的に安全でないことを明らかにしている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Browser agents enable autonomous web interaction but face critical reliability and security challenges in production. This paper presents findings from building and operating a production browser agent. The analysis examines where current approaches fail and what prevents safe autonomous operation. The fundamental insight: model capability does not limit agent performance; architectural decisions determine success or failure. Security analysis of real-world incidents reveals prompt injection attacks make general-purpose autonomous operation fundamentally unsafe. The paper argues against developing general browsing intelligence in favor of specialized tools with programmatic constraints, where safety boundaries are enforced through code instead of large language model (LLM) reasoning. Through hybrid context management combining accessibility tree snapshots with selective vision, comprehensive browser tooling matching human interaction capabilities, and intelligent prompt engineering, the agent achieved approximately 85% success rate on the WebGames benchmark across 53 diverse challenges (compared to approximately 50% reported for prior browser agents and 95.7% human baseline).
- Abstract(参考訳): ブラウザエージェントは、自律的なWebインタラクションを可能にするが、プロダクションにおいて重要な信頼性とセキュリティ上の課題に直面している。
本稿では,実運用ブラウザエージェントの構築と運用から得られた知見について述べる。
この分析は、現在のアプローチがどこで失敗し、何が安全な自律運転を防ぐのかを調べる。
基本的な洞察: モデル能力はエージェントのパフォーマンスを制限しない。
現実世界のインシデントに対するセキュリティ分析は、インジェクションの迅速な攻撃によって、汎用的な自律運転が基本的に安全でないことを明らかにしている。
本論文は,大規模言語モデル(LLM)推論ではなく,コードを通じて安全性境界を強制する,プログラム的制約を持った特殊なツールを優先して,汎用的なブラウジングインテリジェンスを開発することに反対する。
アクセシビリティツリーのスナップショットと、人間のインタラクション機能に合わせた包括的なブラウザツール、インテリジェントなプロンプトエンジニアリングを組み合わせたハイブリッドコンテキスト管理を通じて、エージェントは53のさまざまな課題でWebGamesベンチマークで約85%の成功率を達成した(以前のブラウザエージェントでは約50%、人間ベースラインでは95.7%と報告されている)。
関連論文リスト
- BrowseSafe: Understanding and Preventing Prompt Injection Within AI Browser Agents [8.923854146974783]
本稿では,実際のHTMLペイロードに埋め込まれた攻撃のベンチマークを合成し,インジェクション攻撃の現場を考察する。
私たちのベンチマークは、単なるテキスト出力ではなく、現実世界のアクションに影響を与えるインジェクションを強調することで、以前の作業を超えています。
アーキテクチャとモデルに基づく防御を両立する多層防衛戦略を提案する。
論文 参考訳(メタデータ) (2025-11-25T18:28:35Z) - AgentSentinel: An End-to-End and Real-Time Security Defense Framework for Computer-Use Agents [7.99316950952212]
LLM(Large Language Models)は、コンピュータ利用エージェントにますます統合されている。
LLMは意図しないツールコマンドや誤った入力を発行し、潜在的に有害な操作を引き起こす可能性がある。
我々は,セキュリティの脅威を軽減するために,エンド・ツー・エンドのリアルタイム防衛フレームワークであるAgentSentinelを提案する。
論文 参考訳(メタデータ) (2025-09-09T13:59:00Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - Security Challenges in AI Agent Deployment: Insights from a Large Scale Public Competition [101.86739402748995]
44の現実的なデプロイメントシナリオを対象とした,22のフロンティアAIエージェントを対象にしています。
Agent Red Teamingベンチマークを構築し、19の最先端モデルで評価します。
私たちの発見は、今日のAIエージェントの重要かつ永続的な脆弱性を浮き彫りにしたものです。
論文 参考訳(メタデータ) (2025-07-28T05:13:04Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - SafeAgent: Safeguarding LLM Agents via an Automated Risk Simulator [77.86600052899156]
LLM(Large Language Model)ベースのエージェントは、現実のアプリケーションにますますデプロイされる。
完全自動合成データ生成によるエージェント安全性を体系的に向上する最初のフレームワークであるAutoSafeを提案する。
AutoSafeは安全性のスコアを平均で45%向上させ、現実世界のタスクでは28.91%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-23T10:56:06Z) - The Hidden Dangers of Browsing AI Agents [0.0]
本稿では,複数のアーキテクチャ層にまたがるシステム的脆弱性に着目し,このようなエージェントの総合的なセキュリティ評価を行う。
本研究は,ブラウジングエージェントのエンド・ツー・エンドの脅威モデルについて概説し,実環境への展開を確保するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2025-05-19T13:10:29Z) - Towards Trustworthy GUI Agents: A Survey [64.6445117343499]
本調査では,GUIエージェントの信頼性を5つの重要な次元で検証する。
敵攻撃に対する脆弱性、シーケンシャルな意思決定における障害モードのカスケードなど、大きな課題を特定します。
GUIエージェントが普及するにつれて、堅牢な安全基準と責任ある開発プラクティスを確立することが不可欠である。
論文 参考訳(メタデータ) (2025-03-30T13:26:00Z) - WebGames: Challenging General-Purpose Web-Browsing AI Agents [11.320069795732058]
WebGamesは汎用的なWebブラウザAIエージェントを評価するために設計された包括的なベンチマークスイートである。
GPT-4o, Claude Computer-Use, Gemini-1.5-Pro, Qwen2-VLなどの視覚言語モデルを人為的性能に対して評価した。
その結果、最高のAIシステムは、人間のパフォーマンスが95.7%であるのに対して、43.1%の成功率しか達成していない。
論文 参考訳(メタデータ) (2025-02-25T16:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。