論文の概要: SafeSearch: Automated Red-Teaming for the Safety of LLM-Based Search Agents
- arxiv url: http://arxiv.org/abs/2509.23694v2
- Date: Wed, 01 Oct 2025 01:48:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 12:11:26.784883
- Title: SafeSearch: Automated Red-Teaming for the Safety of LLM-Based Search Agents
- Title(参考訳): SafeSearch: LLMベースの検索エージェントの安全のための自動化された再チーム
- Authors: Jianshuo Dong, Sheng Guo, Hao Wang, Zhuotao Liu, Tianwei Zhang, Ke Xu, Minlie Huang, Han Qiu,
- Abstract要約: 我々は、低品質な検索結果の出現率と、エージェントの動作を誤る可能性を実証する2つの実験を行った。
この脅威に対処するため、私たちは、体系的、スケーラブルで、コスト効率のよい自動化されたレッドチームフレームワークを導入しました。
- 参考スコア(独自算出の注目度): 58.24401593597499
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Search agents connect LLMs to the Internet, enabling access to broader and more up-to-date information. However, unreliable search results may also pose safety threats to end users, establishing a new threat surface. In this work, we conduct two in-the-wild experiments to demonstrate both the prevalence of low-quality search results and their potential to misguide agent behaviors. To counter this threat, we introduce an automated red-teaming framework that is systematic, scalable, and cost-efficient, enabling lightweight and harmless safety assessments of search agents. Building on this framework, we construct the SafeSearch benchmark, which includes 300 test cases covering five categories of risks (e.g., misinformation and indirect prompt injection). Using this benchmark, we evaluate three representative search agent scaffolds, covering search workflow, tool-calling, and deep research, across 7 proprietary and 8 open-source backend LLMs. Our results reveal substantial vulnerabilities of LLM-based search agents: when exposed to unreliable websites, the highest ASR reached 90.5% for GPT-4.1-mini under a search workflow setting. Moreover, our analysis highlights the limited effectiveness of common defense practices, such as reminder prompting. This emphasizes the value of our framework in promoting transparency for safer agent development. Our codebase and test cases are publicly available: https://github.com/jianshuod/SafeSearch.
- Abstract(参考訳): 検索エージェントはLLMをインターネットに接続し、より広範に最新の情報へのアクセスを可能にする。
しかし、信頼性の低い検索結果はエンドユーザーに安全を脅かし、新たな脅威を生じさせる可能性がある。
本研究では,低品質な検索結果の出現率とエージェントの動作を誤認する可能性を実証する2つの実験を行った。
この脅威に対処するために、我々は、体系的、スケーラブルで、コスト効率のよい自動化されたレッドチームフレームワークを導入し、軽量で無害な検索エージェントの安全性評価を可能にした。
このフレームワーク上に構築したSafeSearchベンチマークには、5つのカテゴリのリスク(誤情報、間接的なインジェクションなど)をカバーする300のテストケースが含まれています。
このベンチマークを用いて,7つのプロプライエタリおよび8つのオープンソースバックエンドLSMを対象に,検索ワークフロー,ツールコール,ディープリサーチの3つの代表的な検索エージェントの足場を評価した。
LLMをベースとした検索エージェントの重大な脆弱性が明らかとなり、信頼性の低いウェブサイトに露出すると、最高のASRはGPT-4.1-miniで90.5%に達した。
さらに,本分析では,リマインダープロンプトなどの一般的な防衛実践の有効性が限定されている。
これは、より安全なエージェント開発のための透明性を促進する上で、私たちのフレームワークの価値を強調します。
私たちのコードベースとテストケースは、 https://github.com/jianshuod/SafeSearch.orgで公開されています。
関連論文リスト
- OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。