Fugu-MT 論文翻訳(概要): ceLLMate: Sandboxing Browser AI Agents

論文の概要: ceLLMate: Sandboxing Browser AI Agents

arxiv url: http://arxiv.org/abs/2512.12594v1
Date: Sun, 14 Dec 2025 08:25:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-16 17:54:56.334315
Title: ceLLMate: Sandboxing Browser AI Agents
Title（参考訳）: ceLLMate: ブラウザAIエージェントのサンドボックス化
Authors: Luoxi Meng, Henry Feng, Ilia Shumailov, Earlence Fernandes,
Abstract要約: 本稿では,ブラウザレベルのサンドボックスフレームワークであるceLLMateを提案する。 ceLLMateは、ウェブサイトが発行する必須ポリシーと、ユーザの自然言語タスクからこれらのポリシーを適応およびインスタンス化する自動ポリシー予測レイヤをペアリングする。エージェントに依存しないブラウザ拡張としてceLLMateを実装し、サンドボックスポリシーによって様々な種類のプロンプトインジェクション攻撃を無視可能なオーバーヘッドで効果的にブロックできることを実証する。
参考スコア（独自算出の注目度）: 16.060034673487287
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Browser-using agents (BUAs) are an emerging class of autonomous agents that interact with web browsers in human-like ways, including clicking, scrolling, filling forms, and navigating across pages. While these agents help automate repetitive online tasks, they are vulnerable to prompt injection attacks that can trick an agent into performing undesired actions, such as leaking private information or issuing state-changing requests. We propose ceLLMate, a browser-level sandboxing framework that restricts the agent's ambient authority and reduces the blast radius of prompt injections. We address two fundamental challenges: (1) The semantic gap challenge in policy enforcement arises because the agent operates through low-level UI observations and manipulations; however, writing and enforcing policies directly over UI-level events is brittle and error-prone. To address this challenge, we introduce an agent sitemap that maps low-level browser behaviors to high-level semantic actions. (2) Policy prediction in BUAs is the norm rather than the exception. BUAs have no app developer to pre-declare sandboxing policies, and thus, ceLLMate pairs website-authored mandatory policies with an automated policy-prediction layer that adapts and instantiates these policies from the user's natural-language task. We implement ceLLMate as an agent-agnostic browser extension and demonstrate how it enables sandboxing policies that effectively block various types of prompt injection attacks with negligible overhead.
Abstract（参考訳）: ブラウザ利用エージェント(Browser-using agent、BUA)は、クリック、スクロール、フォームの埋め合わせ、ページを横断するナビゲートなど、ウェブブラウザと人間のような方法で対話する、新しいタイプの自律エージェントである。これらのエージェントは、反復的なオンラインタスクを自動化するのに役立ちますが、エージェントを騙して、プライベート情報をリークしたり、状態を変える要求を発行するといった、望ましくないアクションを実行するようなインジェクション攻撃に対して脆弱です。本稿では,ブラウザレベルのサンドボックスフレームワークであるceLLMateを提案する。 1) 政策執行におけるセマンティックギャップの課題は,エージェントが低レベルなUIの観察と操作を通じて動作するためである。この課題に対処するために,低レベルのブラウザ動作を高レベルのセマンティックアクションにマッピングするエージェントサイトマップを導入する。 2)BUAの政策予測は例外ではなく規範である。 BUAにはサンドボックスポリシーを事前に宣言するアプリ開発者がいないため、ceLLMateはWebサイトが提供する必須ポリシーと、ユーザの自然言語タスクからこれらのポリシーを適応およびインスタンス化する自動ポリシー予測レイヤをペアリングする。エージェントに依存しないブラウザ拡張としてceLLMateを実装し、サンドボックスポリシーによって様々な種類のプロンプトインジェクション攻撃を無視可能なオーバーヘッドで効果的にブロックできることを実証する。

関連論文リスト

SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文参考訳（メタデータ） (2026-02-15T16:09:48Z)
MUZZLE: Adaptive Agentic Red-Teaming of Web Agents Against Indirect Prompt Injection Attacks [10.431616150153992]
MUZZLEは、間接的なプロンプトインジェクション攻撃に対するWebエージェントのセキュリティを評価する自動化フレームワークである。エージェントの観察された実行軌跡に基づいて攻撃戦略を適用し、失敗した実行からのフィードバックを使用して攻撃を反復的に洗練する。 MUZZLEは、機密性、可用性、プライバシ特性に反する10の敵目標を持つ4つのWebアプリケーションに対する37の新たな攻撃を効果的に発見する。
論文参考訳（メタデータ） (2026-02-09T21:46:18Z)
AgentGuardian: Learning Access Control Policies to Govern AI Agent Behavior [20.817336331051752]
AgentGuardianは、コンテキスト対応アクセス制御ポリシーを強制することによって、AIエージェントの操作を統制し、保護する。正常なエージェント機能を保持しながら、悪意のある入力や誤解を招く入力を効果的に検出する。
論文参考訳（メタデータ） (2026-01-15T14:33:36Z)
It's a TRAP! Task-Redirecting Agent Persuasion Benchmark for Web Agents [52.81924177620322]
大規模な言語モデルを利用したWebベースのエージェントは、メール管理やプロフェッショナルネットワーキングといったタスクにますます利用されている。動的Webコンテンツへの依存は、インジェクション攻撃の引き金に弱い: インターフェース要素に隠された敵対的命令は、エージェントが元のタスクから逸脱するように説得する。本稿では,タスクリダイレクトエージェントの説得ベンチマーク(TRAP)について紹介する。
論文参考訳（メタデータ） (2025-12-29T01:09:10Z)
Who Grants the Agent Power? Defending Against Instruction Injection via Task-Centric Access Control [25.109590157742712]
我々は、動的にタスクスコープ化されたパーミッションを強制する軽量ランタイムアクセス制御フレームワークであるAgentSentryを紹介する。広範囲で永続的な許可を与える代わりに、AgentSentryは、最小限の一時的なポリシーを動的に生成し、強制する。我々は,エージェントがプライベートメールの転送に騙されるようなインジェクション攻撃を,エージェントSentryがうまく防ぐことを実証する。
論文参考訳（メタデータ） (2025-10-30T07:36:59Z)
In-Browser LLM-Guided Fuzzing for Real-Time Prompt Injection Testing in Agentic AI Browsers [0.0]
大規模言語モデル(LLM)ベースのエージェントがWebブラウザに統合され、Webタスクの強力な自動化を提供する。それらは間接的なインジェクション攻撃に対して脆弱で、Webページに隠された悪意のある命令は、エージェントを不必要なアクションに騙す。本稿では,ブラウザ上で完全に動作し,LDMによって誘導される新しいファジィングフレームワークについて紹介する。
論文参考訳（メタデータ） (2025-10-15T13:39:13Z)
BrowserArena: Evaluating LLM Agents on Real-World Web Navigation Tasks [51.803138848305814]
我々はBrowserArenaを紹介した。BrowserArenaは、ユーザから送信されたタスクを収集するオープンソースのエージェント評価プラットフォームである。 Captcha解決、ポップアップバナー削除、URLへのダイレクトナビゲーションの3つの一貫した障害モードを特定します。本研究は,Webエージェントの多様性と脆性の両方を明らかにする。
論文参考訳（メタデータ） (2025-10-02T15:22:21Z)
Context manipulation attacks : Web agents are susceptible to corrupted memory [37.66661108936654]
Plan Injection"は、これらのエージェントの内部タスク表現を、この脆弱なコンテキストをターゲットとして破壊する、新しいコンテキスト操作攻撃である。プランインジェクションはロバスト・プロンプト・インジェクション・ディフェンスを回避し,攻撃成功率を同等のプロンプト・ベース・アタックの最大3倍に向上することを示す。この結果から,安全なメモリ処理はエージェントシステムにおける第一級の関心事であることが示唆された。
論文参考訳（メタデータ） (2025-06-18T14:29:02Z)
VPI-Bench: Visual Prompt Injection Attacks for Computer-Use Agents [74.6761188527948]
完全なシステムアクセスを持つコンピュータ利用エージェント(CUA)は、セキュリティとプライバシの重大なリスクを負う。我々は、悪意のある命令がレンダリングされたユーザーインターフェイスに視覚的に埋め込まれた視覚的プロンプトインジェクション(VPI)攻撃について検討する。実験により,現在のCUAとBUAは,それぞれのプラットフォーム上で最大51%,100%の速度で騙すことができることがわかった。
論文参考訳（メタデータ） (2025-06-03T05:21:50Z)
AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文参考訳（メタデータ） (2025-05-09T07:40:17Z)
WASP: Benchmarking Web Agent Security Against Prompt Injection Attacks [36.97842000562324]
我々は、Pmptインジェクション攻撃に対するWeb Agent Securityのエンドツーエンド評価のための新しいベンチマークであるWASPを紹介する。高度な推論能力を含むトップレベルのAIモデルでさえ、単純で低便なヒューマンインジェクションによって騙される可能性があることを示す。攻撃は最大86%で部分的には成功したが、最先端のエージェントでさえ、攻撃者の目標を完全に満たすのに苦労することが多い。
論文参考訳（メタデータ） (2025-04-22T17:51:03Z)
MIP against Agent: Malicious Image Patches Hijacking Multimodal OS Agents [60.92962583528122]
オペレーティングシステム(OS)エージェントの最近の進歩により、視覚言語モデル(VLM)がユーザのコンピュータを直接制御できるようになった。これらのOSエージェントに対する新たなアタックベクターを発見した:MIP(Malicious Image Patches) MIPは、OSエージェントにキャプチャされたとき、特定のAPIを活用することで有害なアクションを誘導する画面領域を逆向きに乱した。
論文参考訳（メタデータ） (2025-03-13T18:59:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。