論文の概要: SPILLage: Agentic Oversharing on the Web
- arxiv url: http://arxiv.org/abs/2602.13516v1
- Date: Fri, 13 Feb 2026 23:02:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.1256
- Title: SPILLage: Agentic Oversharing on the Web
- Title(参考訳): SPILLage: Web上のエージェントオーバーシェア
- Authors: Jaechul Roh, Eugene Bagdasarian, Hamed Haddadi, Ali Shahin Shamsabadi,
- Abstract要約: LLMはオープンウェブ全体でユーザーのタスクを自動化し始めており、しばしばEメールやカレンダーなどのユーザーリソースにアクセスしている。
私たちは、Webエージェントが、ライブWebサイト全体にわたってタスクを代行するときに、どのようにユーザーリソースを扱うのかを尋ねる。
本稿では,Web上のアクションのエージェントトレースを通じて,非意図的なタスク関連ユーザ情報の開示を行うNatural Agentic Over sharingを形式化する。
- 参考スコア(独自算出の注目度): 13.930845226612767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-powered agents are beginning to automate user's tasks across the open web, often with access to user resources such as emails and calendars. Unlike standard LLMs answering questions in a controlled ChatBot setting, web agents act "in the wild", interacting with third parties and leaving behind an action trace. Therefore, we ask the question: how do web agents handle user resources when accomplishing tasks on their behalf across live websites? In this paper, we formalize Natural Agentic Oversharing -- the unintentional disclosure of task-irrelevant user information through an agent trace of actions on the web. We introduce SPILLage, a framework that characterizes oversharing along two dimensions: channel (content vs. behavior) and directness (explicit vs. implicit). This taxonomy reveals a critical blind spot: while prior work focuses on text leakage, web agents also overshare behaviorally through clicks, scrolls, and navigation patterns that can be monitored. We benchmark 180 tasks on live e-commerce sites with ground-truth annotations separating task-relevant from task-irrelevant attributes. Across 1,080 runs spanning two agentic frameworks and three backbone LLMs, we demonstrate that oversharing is pervasive with behavioral oversharing dominates content oversharing by 5x. This effect persists -- and can even worsen -- under prompt-level mitigation. However, removing task-irrelevant information before execution improves task success by up to 17.9%, demonstrating that reducing oversharing improves task success. Our findings underscore that protecting privacy in web agents is a fundamental challenge, requiring a broader view of "output" that accounts for what agents do on the web, not just what they type. Our datasets and code are available at https://github.com/jrohsc/SPILLage.
- Abstract(参考訳): LLMで動くエージェントはオープンウェブ上でユーザーのタスクを自動化し始めており、しばしば電子メールやカレンダーなどのユーザーリソースにアクセスしている。
コントロールされたChatBot設定で質問に答える標準のLLMとは異なり、Webエージェントはサードパーティと対話し、アクショントレースを残して"野放し"行動する。
そこで、我々は、Webエージェントが、ライブWebサイトをまたいでタスクを遂行する際に、どのようにユーザリソースを扱うのか、という疑問を提起する。
本稿では,Web上のアクションのエージェントトレースを通じて,非意図的なタスク関連ユーザ情報の開示を行うNatural Agentic Over sharingを形式化する。
SPILLageは、チャンネル(コンテンツ対振る舞い)とダイレクトネス(明示対暗黙)という2つの次元に沿ったオーバーシェアリングを特徴付けるフレームワークである。
以前の作業ではテキストのリークに焦点を当てていたが、Webエージェントはクリック、スクロール、ナビゲーションパターンを監視できるため、振る舞いをオーバーシェアする。
我々は,タスク関連属性とタスク関連属性を分離した実店舗で180のタスクをベンチマークした。
2つのエージェントフレームワークと3つのバックボーンLDMにまたがる1,080回にわたって、オーバーシェアリングが広まっており、ビヘイビアオーバーシェアリングがコンテンツオーバーシェアを5倍に支配していることを示す。
この効果は、即時レベルの緩和の下で持続し、さらに悪化する可能性がある。
しかし、実行前にタスク関連情報を削除することでタスク成功率が最大17.9%向上し、オーバーシェアリングを減らすことでタスク成功が向上することを示す。
私たちの発見は、Webエージェントのプライバシ保護が根本的な課題であることを示している。
データセットとコードはhttps://github.com/jrohsc/SPILLage.comで公開しています。
関連論文リスト
- It's a TRAP! Task-Redirecting Agent Persuasion Benchmark for Web Agents [52.81924177620322]
大規模な言語モデルを利用したWebベースのエージェントは、メール管理やプロフェッショナルネットワーキングといったタスクにますます利用されている。
動的Webコンテンツへの依存は、インジェクション攻撃の引き金に弱い: インターフェース要素に隠された敵対的命令は、エージェントが元のタスクから逸脱するように説得する。
本稿では,タスクリダイレクトエージェントの説得ベンチマーク(TRAP)について紹介する。
論文 参考訳(メタデータ) (2025-12-29T01:09:10Z) - AgentFold: Long-Horizon Web Agents with Proactive Context Management [98.54523771369018]
LLM ベースの Web エージェントは情報検索を大いに約束するが,その有効性はコンテキスト管理における基本的なトレードオフによって妨げられる。
本稿では,プロアクティブなコンテキスト管理を中心としたエージェントパラダイムであるAgentFoldを紹介する。
単純な微調整により,BrowseCompでは36.2%,BrowseComp-ZHでは47.3%を達成した。
論文 参考訳(メタデータ) (2025-10-28T17:51:50Z) - ReInAgent: A Context-Aware GUI Agent Enabling Human-in-the-Loop Mobile Task Navigation [26.254354188188177]
ReInAgentは、ヒューマン・イン・ザ・ループのモバイルタスクナビゲーションを可能にする、コンテキスト対応のマルチエージェントフレームワークである。
これは、明確で静的なタスク仮定に依存する既存のアプローチの制限を克服する。
真のユーザの好みとより緊密に一致した結果を生み出すのです。
論文 参考訳(メタデータ) (2025-10-09T09:22:05Z) - FocusAgent: Simple Yet Effective Ways of Trimming the Large Context of Web Agents [76.12500510390439]
大規模言語モデル(LLM)を利用したWebエージェントは、ユーザの目標を達成するために、長いWebページの観察を処理しなければならない。
既存のプルーニング戦略は、関連するコンテンツを捨てるか、無関係なコンテキストを保持するかのいずれかであり、最適以下の行動予測につながる。
FocusAgentは軽量LCMレトリバーを利用してアクセシビリティツリー(AxTree)観測から最も関連性の高い線を抽出するシンプルで効果的なアプローチである。
論文 参考訳(メタデータ) (2025-10-03T17:41:30Z) - Mind the Web: The Security of Web Use Agents [11.075673765065103]
本稿では,Webページに悪意のあるコンテンツを埋め込むことで,攻撃者がWeb利用エージェントを利用する方法を示す。
本稿では,悪質なコマンドをタスクガイダンスとしてフレーム化するタスクアラインインジェクション手法を提案する。
本稿では,監視機構,実行制約,タスク認識推論技術などを含む包括的緩和戦略を提案する。
論文 参考訳(メタデータ) (2025-06-08T13:59:55Z) - WebLists: Extracting Structured Information From Complex Interactive Websites Using Executable LLM Agents [1.6673034682613495]
我々は、一般的な4つのビジネスおよびエンタープライズユースケースにわたる200のデータ抽出タスクのベンチマークであるWebListsを紹介します。
検索能力を有するLLMとSOTA Webエージェントの両方が、それぞれ3%と31%のリコールで、これらのタスクに苦労していることを示す。
提案するBardeenAgentは,Webエージェントが実行をリピータブルなプログラムに変換し,類似した構造を持つページ間で大規模に再生することを可能にする新しいフレームワークである。
WebListsベンチマークでは、BardeenAgentが総リコール総数の66%を達成し、SOTA Webエージェントのパフォーマンスを倍増し、出力行あたりのコストを3倍に削減した。
論文 参考訳(メタデータ) (2025-04-17T06:16:40Z) - AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。
AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文 参考訳(メタデータ) (2024-10-17T17:50:38Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。