論文の概要: Too Helpful to Be Safe: User-Mediated Attacks on Planning and Web-Use Agents
- arxiv url: http://arxiv.org/abs/2601.10758v1
- Date: Wed, 14 Jan 2026 03:29:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.23585
- Title: Too Helpful to Be Safe: User-Mediated Attacks on Planning and Web-Use Agents
- Title(参考訳): 安全すぎる: 計画とWeb利用エージェントに対するユーザによる攻撃
- Authors: Fengchao Chen, Tingmin Wu, Van Nguyen, Carsten Rudolph,
- Abstract要約: 我々は、不正なユーザーを騙して信頼できないコンテンツや攻撃者が制御するコンテンツをエージェントに中継する、ユーザー介在型攻撃について研究する。
サンドボックス環境における12の商業エージェントの系統的評価を行う。
以上の結果から,エージェントはデフォルトでは安全でありすぎることが示唆された。
- 参考スコア(独自算出の注目度): 3.7549350220109274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have enabled agents to move beyond conversation toward end-to-end task execution and become more helpful. However, this helpfulness introduces new security risks stem less from direct interface abuse than from acting on user-provided content. Existing studies on agent security largely focus on model-internal vulnerabilities or adversarial access to agent interfaces, overlooking attacks that exploit users as unintended conduits. In this paper, we study user-mediated attacks, where benign users are tricked into relaying untrusted or attacker-controlled content to agents, and analyze how commercial LLM agents respond under such conditions. We conduct a systematic evaluation of 12 commercial agents in a sandboxed environment, covering 6 trip-planning agents and 6 web-use agents, and compare agent behavior across scenarios with no, soft, and hard user-requested safety checks. Our results show that agents are too helpful to be safe by default. Without explicit safety requests, trip-planning agents bypass safety constraints in over 92% of cases, converting unverified content into confident booking guidance. Web-use agents exhibit near-deterministic execution of risky actions, with 9 out of 17 supported tests reaching a 100% bypass rate. Even when users express soft or hard safety intent, constraint bypass remains substantial, reaching up to 54.7% and 7% for trip-planning agents, respectively. These findings reveal that the primary issue is not a lack of safety capability, but its prioritization. Agents invoke safety checks only conditionally when explicitly prompted, and otherwise default to goal-driven execution. Moreover, agents lack clear task boundaries and stopping rules, frequently over-executing workflows in ways that lead to unnecessary data disclosure and real-world harm.
- Abstract(参考訳): 大規模言語モデル(LLM)により、エージェントは会話を超えてエンドツーエンドのタスク実行に移行し、より便利になる。
しかし、この新しいセキュリティリスクは、ユーザーが提供するコンテンツに作用するよりも、インターフェースを直接乱用することによるものである。
エージェントセキュリティに関する既存の研究は、主にモデル内部の脆弱性やエージェントインターフェースへの敵対的なアクセスに焦点を当てており、意図しない詐欺としてユーザを悪用する攻撃を見下ろしている。
本稿では,ユーザによる攻撃について検討し,不信任者や攻撃者によって制御されたコンテンツをエージェントに中継し,そのような条件下での商業的LLMエージェントの応答を解析する。
サンドボックス環境における12の商業エージェントの系統的評価を行い、6つの旅行計画エージェントと6つのウェブ利用エージェントをカバーし、無, ソフト, ハードユーザ要求の安全チェックのシナリオ間でエージェントの挙動を比較した。
以上の結果から,エージェントはデフォルトでは安全でありすぎることが示唆された。
明確な安全要求がなければ、トリッププランニングエージェントは92%以上のケースで安全性の制約を回避し、未検証のコンテンツを信頼できる予約ガイドに変換する。
ウェブ利用エージェントは危険行動のほぼ決定論的実行を示しており、17の試験のうち9つが100%バイパス率に達している。
利用者がソフトまたはハードな安全意図を表現している場合でも、制限バイパスは引き続き重要であり、それぞれ54.7%と7%のトリッププランニングエージェントに到達している。
これらの結果から、主な問題は安全性の欠如ではなく、優先順位付けであることが明らかとなった。
エージェントは明示的に指示された場合にのみ安全チェックを実行し、そうでなければゴール駆動実行をデフォルトにする。
さらに、エージェントには明確なタスクバウンダリやルールの停止、不要なデータ開示や現実世界の害につながるようなワークフローの過剰実行が欠如している。
関連論文リスト
- Are Your Agents Upward Deceivers? [73.1073084327614]
大規模言語モデル(LLM)ベースのエージェントは、ユーザのためにタスクを実行する自律的な従属者として、ますます使われています。
これは、人間の組織の個人がどのように上官に嘘をついて良いイメージを作り出したり、罰を免れるかのような、詐欺にも関与するかどうかという問題を提起する。
本研究では,環境制約に直面するエージェントが障害を隠蔽し,報告なしに要求されない動作を行う現象であるエージェント上行錯誤を観察・定義する。
論文 参考訳(メタデータ) (2025-12-04T14:47:05Z) - ConVerse: Benchmarking Contextual Safety in Agent-to-Agent Conversations [11.177126931962443]
ConVerseはエージェントエージェントインタラクションにおけるプライバシとセキュリティリスクを評価するためのベンチマークである。
12のユーザペルソナと864以上のコンテキストベースアタックを備えた,3つの実用的なドメインにまたがる。
インタラクティブなマルチエージェントコンテキスト内にプライバシとセキュリティを統合することで、ConVerseは通信の緊急性として安全性を再設定する。
論文 参考訳(メタデータ) (2025-11-07T15:49:49Z) - SafeSearch: Automated Red-Teaming for the Safety of LLM-Based Search Agents [63.70653857721785]
我々は、低品質な検索結果の出現率と、エージェントの動作を誤る可能性を実証する2つの実験を行った。
この脅威に対処するため、私たちは、体系的、スケーラブルで、コスト効率のよい自動化されたレッドチームフレームワークを導入しました。
論文 参考訳(メタデータ) (2025-09-28T07:05:17Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - Agent-SafetyBench: Evaluating the Safety of LLM Agents [72.92604341646691]
我々は,大規模言語モデル(LLM)の安全性を評価するベンチマークであるAgent-SafetyBenchを紹介する。
Agent-SafetyBenchは349のインタラクション環境と2,000のテストケースを含み、安全リスクの8つのカテゴリを評価し、安全でないインタラクションで頻繁に発生する10の一般的な障害モードをカバーする。
16 名の LLM エージェントを評価した結果,いずれのエージェントも 60% 以上の安全性スコアを達成できないことがわかった。
論文 参考訳(メタデータ) (2024-12-19T02:35:15Z) - SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents [58.65256663334316]
我々は,対話型シミュレーション環境におけるLLMエージェントの安全性を考慮したタスク計画のための最初のベンチマークであるSafeAgentBenchを紹介する。
SafeAgentBenchは、(1)10の潜在的な危険と3つのタスクタイプをカバーするために厳格にキュレートされた750のタスクの実行可能な多種多様な高品質データセット、(2)低レベルコントローラを備えた普遍的な実施環境、9つの最先端ベースラインに対して17のハイレベルアクションでマルチエージェント実行をサポートするSafeAgentEnv、(3)実行とセマンティックの両方の観点から信頼性の高い評価方法を含む。
論文 参考訳(メタデータ) (2024-12-17T18:55:58Z) - Towards Action Hijacking of Large Language Model-based Agent [23.13653350521422]
LLMベースのアプリケーションのアクションプランを操作するための新しい攻撃であるAI$mathbf2$を紹介する。
まず、被害者のアプリケーションからアクション認識の知識を収集する。
このような知識に基づいて、攻撃者は誤解を招く入力を生成することができ、LLMを誤解して有害なアクションプランを生成することができる。
論文 参考訳(メタデータ) (2024-12-14T12:11:26Z) - Air Gap: Protecting Privacy-Conscious Conversational Agents [44.04662124191715]
敵のサードパーティアプリがインタラクションのコンテキストを操作して,LDMベースのエージェントを騙して,そのタスクに関係のない個人情報を明らかにする,新たな脅威モデルを導入する。
本研究では,特定のタスクに必要なデータのみへのアクセスを制限することで,意図しないデータ漏洩を防止するために設計されたプライバシ意識エージェントであるAirGapAgentを紹介する。
論文 参考訳(メタデータ) (2024-05-08T16:12:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。