論文の概要: SafeSearch: Do Not Trade Safety for Utility in LLM Search Agents
- arxiv url: http://arxiv.org/abs/2510.17017v3
- Date: Wed, 05 Nov 2025 04:51:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 20:32:09.433678
- Title: SafeSearch: Do Not Trade Safety for Utility in LLM Search Agents
- Title(参考訳): SafeSearch: LLM検索エージェントの実用性のための安全をトレードしない
- Authors: Qiusi Zhan, Angeline Budiman-Chan, Abdelrahman Zayed, Xingzhi Guo, Daniel Kang, Joo-Kyung Kim,
- Abstract要約: 大言語モデル(LLM)ベースの検索エージェントは、クエリを反復的に生成し、外部情報を検索し、オープンドメインの質問に答える。
研究者は主に実用性の改善に力を入れてきたが、その安全性の行動は未調査のままだ。
SafeSearchは、複数目的の強化学習アプローチで、最終的な出力安全性/ユーティリティ報酬と、新しいクエリレベルのシェーピング用語を結合する。
- 参考スコア(独自算出の注目度): 14.471045017602428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) based search agents iteratively generate queries, retrieve external information, and reason to answer open-domain questions. While researchers have primarily focused on improving their utility, their safety behaviors remain underexplored. In this paper, we first evaluate search agents using red-teaming datasets and find that they are more likely to produce harmful outputs than base LLMs. For example, when asked "How can I track someone's location without their consent?", a base model refuses, whereas a search agent designed to retrieve and cite sources may lower its refusal threshold, fetch documents (e.g., court cases), and, once appended, synthesize them into an informative yet unsafe summary. We further show that utility-oriented fine-tuning intensifies this risk, motivating joint alignment of safety and utility. We present SafeSearch, a multi-objective reinforcement learning approach that couples a final-output safety/utility reward with a novel query-level shaping term that penalizes unsafe queries and rewards safe ones. Experiments show that SafeSearch reduces agent harmfulness by over 70% across three red-teaming datasets while producing safe, helpful responses, and matches the QA performance of a utility-only finetuned agent; further analyses confirm the effectiveness of the query-level reward in jointly improving safety and utility.
- Abstract(参考訳): 大言語モデル(LLM)ベースの検索エージェントは、クエリを反復的に生成し、外部情報を取得し、オープンドメインの質問に答える理由を与える。
研究者は主に実用性の改善に力を入れてきたが、その安全性の行動は未調査のままだ。
本稿では,まず,レッドチームデータセットを用いた検索エージェントの評価を行い,ベースLSMよりも有害なアウトプットを産み出す可能性が示唆された。
例えば、"どのようにして同意なしに誰かの位置を追跡できるか"という質問に対して、ベースモデルは拒否するが、ソースを検索して引用するように設計された検索エージェントは、拒否しきい値を下げ、文書(例えば、訴訟)をフェッチし、一度追加すると、情報的かつ安全でない要約に合成する。
さらに、ユーティリティ指向の微調整がこのリスクを増大させ、安全性とユーティリティの連携を動機付けていることを示す。
SafeSearchは、安全でないクエリをペナルティ化し、安全なクエリを報酬する新しいクエリレベルのシェーピング用語と、最終出力の安全性/ユーティリティの報酬を結合する、多目的強化学習アプローチである。
実験によると、SafeSearchは3つのレッドチームデータセットに対して、安全で有用な応答を生成しながら、エージェントの有害度を70%以上削減し、ユーティリティのみの微調整エージェントのQAパフォーマンスと一致している。
関連論文リスト
- Chaining the Evidence: Robust Reinforcement Learning for Deep Search Agents with Citation-Aware Rubric Rewards [60.0970117192627]
強化学習(Reinforcement Learning, RL)は, LLMに基づくディープサーチエージェントの強化に重要な手法である。
既存のアプローチは主にバイナリ結果の報酬に依存しており、エージェントの推論プロセスの包括性と事実性を捉えていない。
ディープサーチエージェントのための微粒化報酬フレームワークである textbfCitation-aware RL Rewards (CaRR) を提案する。
論文 参考訳(メタデータ) (2026-01-09T18:57:53Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - Agentic Reinforcement Learning for Search is Unsafe [3.3562013033694598]
本稿では、RL学習した検索モデルが、命令チューニングの拒否を継承し、安全なクエリに変換することで有害な要求を無視することを示す。
2つの単純な攻撃は、有害な検索と回答のカスケードを引き起こす。
その結果、RL検索モデルには、ユーザが容易に活用できる脆弱性がある。
論文 参考訳(メタデータ) (2025-10-20T11:19:37Z) - CREST-Search: Comprehensive Red-teaming for Evaluating Safety Threats in Large Language Models Powered by Web Search [28.45573025341277]
大きな言語モデル(LLM)は、対話、要約、質問応答といったタスクに優れる。
これを解決するために、ウェブ検索はLLMに統合され、オンラインコンテンツへのリアルタイムアクセスを可能にした。
この接続は、敵のプロンプトと信頼できないソースが組み合わさって深刻な脆弱性を引き起こすため、安全性のリスクを増大させる。
我々は,このようなシステムにおけるリスクを体系的に公開するフレームワークであるCREST-Searchを紹介する。
論文 参考訳(メタデータ) (2025-10-09T09:44:14Z) - SafeSearch: Automated Red-Teaming for the Safety of LLM-Based Search Agents [63.70653857721785]
我々は、低品質な検索結果の出現率と、エージェントの動作を誤る可能性を実証する2つの実験を行った。
この脅威に対処するため、私たちは、体系的、スケーラブルで、コスト効率のよい自動化されたレッドチームフレームワークを導入しました。
論文 参考訳(メタデータ) (2025-09-28T07:05:17Z) - Information Retrieval Induced Safety Degradation in AI Agents [52.15553901577888]
本研究では,検索アクセスの拡大がモデル信頼性,バイアス伝搬,有害コンテンツ生成に与える影響について検討した。
整列 LLM 上に構築された検索可能なエージェントは、検索なしでの無検閲モデルよりも安全でない振る舞いをすることが多い。
これらの発見は、検索可能でますます自律的なAIシステムの公正性と信頼性を確保するための堅牢な緩和戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-20T11:21:40Z) - Evaluating Robustness of Generative Search Engine on Adversarial Factual Questions [89.35345649303451]
生成検索エンジンは、人々がオンラインで情報を求める方法を変える可能性を秘めている。
しかし,既存の大規模言語モデル(LLM)が支援する生成検索エンジンからの応答は必ずしも正確ではない。
検索強化世代は、敵がシステム全体を回避できるため、安全上の懸念を増す。
論文 参考訳(メタデータ) (2024-02-25T11:22:19Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。