論文の概要: CREST-Search: Comprehensive Red-teaming for Evaluating Safety Threats in Large Language Models Powered by Web Search
- arxiv url: http://arxiv.org/abs/2510.09689v1
- Date: Thu, 09 Oct 2025 09:44:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.560002
- Title: CREST-Search: Comprehensive Red-teaming for Evaluating Safety Threats in Large Language Models Powered by Web Search
- Title(参考訳): CREST-Search: Web検索による大規模言語モデルにおける安全性の脅威評価のための総合的再チーム
- Authors: Haoran Ou, Kangjie Chen, Xingshuo Han, Gelei Deng, Jie Zhang, Han Qiu, Tianwei Zhang,
- Abstract要約: 大きな言語モデル(LLM)は、対話、要約、質問応答といったタスクに優れる。
これを解決するために、ウェブ検索はLLMに統合され、オンラインコンテンツへのリアルタイムアクセスを可能にした。
この接続は、敵のプロンプトと信頼できないソースが組み合わさって深刻な脆弱性を引き起こすため、安全性のリスクを増大させる。
我々は,このようなシステムにおけるリスクを体系的に公開するフレームワークであるCREST-Searchを紹介する。
- 参考スコア(独自算出の注目度): 28.45573025341277
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) excel at tasks such as dialogue, summarization, and question answering, yet they struggle to adapt to specialized domains and evolving facts. To overcome this, web search has been integrated into LLMs, allowing real-time access to online content. However, this connection magnifies safety risks, as adversarial prompts combined with untrusted sources can cause severe vulnerabilities. We investigate red teaming for LLMs with web search and present CREST-Search, a framework that systematically exposes risks in such systems. Unlike existing methods for standalone LLMs, CREST-Search addresses the complex workflow of search-enabled models by generating adversarial queries with in-context learning and refining them through iterative feedback. We further construct WebSearch-Harm, a search-specific dataset to fine-tune LLMs into efficient red-teaming agents. Experiments show that CREST-Search effectively bypasses safety filters and reveals vulnerabilities in modern web-augmented LLMs, underscoring the need for specialized defenses to ensure trustworthy deployment.
- Abstract(参考訳): 大きな言語モデル(LLM)は対話や要約、質問応答といったタスクに優れていますが、専門分野や進化する事実に適応するのに苦労しています。
これを解決するために、ウェブ検索はLLMに統合され、オンラインコンテンツへのリアルタイムアクセスを可能にした。
しかし、この接続は、敵のプロンプトと信頼できないソースが組み合わさって深刻な脆弱性を引き起こすため、安全性のリスクを増大させる。
Web検索によるLLMのレッドチーム化と,このようなシステムにおけるリスクを体系的に公開するフレームワークであるCREST-Searchについて検討する。
スタンドアロンのLCMの既存の方法とは異なり、CREST-Searchは、コンテキスト内学習による逆クエリを生成し、反復的なフィードバックを通じてそれらを精査することによって、検索可能なモデルの複雑なワークフローに対処する。
さらに、検索固有のデータセットであるWebSearch-Harmを構築し、LLMを効率的なリピートエージェントに微調整する。
実験によると、CREST-Searchは安全フィルタを効果的に回避し、モダンなWeb拡張LDMの脆弱性を明らかにし、信頼性の高いデプロイメントを保証するための特別な防御の必要性を強調している。
関連論文リスト
- SafeSearch: Automated Red-Teaming for the Safety of LLM-Based Search Agents [58.24401593597499]
我々は、低品質な検索結果の出現率と、エージェントの動作を誤る可能性を実証する2つの実験を行った。
この脅威に対処するため、私たちは、体系的、スケーラブルで、コスト効率のよい自動化されたレッドチームフレームワークを導入しました。
論文 参考訳(メタデータ) (2025-09-28T07:05:17Z) - CoP: Agentic Red-teaming for Large Language Models using Composition of Principles [61.404771120828244]
本稿では,Large Language Models (LLM) のリピートプロセスを自動化するエージェントワークフローを提案する。
ヒューマンユーザは、AIエージェントへの指示として、効果的な赤チーム戦略を自動オーケストレーションし、ジェイルブレイクプロンプトを生成する、一連の赤チームの原則を提供する。
先進的なLLMに対して試験すると、CoPは新しいジェイルブレイクプロンプトを見つけ、最もよく知られているシングルターン攻撃の成功率を19.0倍に改善することで、前例のない安全リスクを明らかにしている。
論文 参考訳(メタデータ) (2025-06-01T02:18:41Z) - Purple-teaming LLMs with Adversarial Defender Training [57.535241000787416]
本稿では,PAD(Adversarial Defender Training)を用いたPurple-teaming LLMを提案する。
PADは、赤チーム(アタック)技術と青チーム(セーフティトレーニング)技術を新たに取り入れることで、LSMを保護するために設計されたパイプラインである。
PADは、効果的な攻撃と堅牢な安全ガードレールの確立の両方において、既存のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-07-01T23:25:30Z) - Ranking Manipulation for Conversational Search Engines [7.958276719131612]
本稿では,対話型検索エンジンが参照するソースのランク付け順序に対するインジェクションのインジェクションの影響について検討する。
低品位製品を確実に促進する攻撃木を用いた脱獄技術を提案する。
論文 参考訳(メタデータ) (2024-06-05T19:14:21Z) - Identifying and Mitigating Vulnerabilities in LLM-Integrated
Applications [37.316238236750415]
LLM統合アプリケーションのバックエンドとして,大規模言語モデル(LLM)がますます多くデプロイされている。
本研究では,ユーザとLLMがLLM統合アプリケーションを介して,中間で対話する環境について考察する。
悪意のあるアプリケーション開発者や外部からの脅威から生じる可能性のある潜在的な脆弱性を特定します。
我々は、内部の脅威と外部の脅威の両方を緩和する軽量で脅威に依存しない防御を開発する。
論文 参考訳(メタデータ) (2023-11-07T20:13:05Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。