論文の概要: Agentic Reinforcement Learning for Search is Unsafe
- arxiv url: http://arxiv.org/abs/2510.17431v1
- Date: Mon, 20 Oct 2025 11:19:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.039237
- Title: Agentic Reinforcement Learning for Search is Unsafe
- Title(参考訳): 検索のためのエージェント強化学習は安全ではない
- Authors: Yushi Yang, Shreyansh Padarha, Andrew Lee, Adam Mahdi,
- Abstract要約: 本稿では、RL学習した検索モデルが、命令チューニングの拒否を継承し、安全なクエリに変換することで有害な要求を無視することを示す。
2つの単純な攻撃は、有害な検索と回答のカスケードを引き起こす。
その結果、RL検索モデルには、ユーザが容易に活用できる脆弱性がある。
- 参考スコア(独自算出の注目度): 3.3562013033694598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agentic reinforcement learning (RL) trains large language models to autonomously call tools during reasoning, with search as the most common application. These models excel at multi-step reasoning tasks, but their safety properties are not well understood. In this study, we show that RL-trained search models inherit refusal from instruction tuning and often deflect harmful requests by turning them into safe queries. However, this safety is fragile. Two simple attacks, one that forces the model to begin response with search (Search attack), another that encourages models to repeatedly search (Multi-search attack), trigger cascades of harmful searches and answers. Across two model families (Qwen, Llama) with both local and web search, these attacks lower refusal rates by up to 60.0%, answer safety by 82.5%, and search-query safety by 82.4%. The attacks succeed by triggering models to generate harmful, request-mirroring search queries before they can generate the inherited refusal tokens. This exposes a core weakness of current RL training: it rewards continued generation of effective queries without accounting for their harmfulness. As a result, RL search models have vulnerabilities that users can easily exploit, making it urgent to develop safety-aware agentic RL pipelines optimising for safe search.
- Abstract(参考訳): エージェント強化学習(RL)は、推論中にツールを自律的に呼び出すために、大規模な言語モデルを訓練する。
これらのモデルは多段階推論タスクにおいて優れているが、その安全性は十分に理解されていない。
本研究では、RL学習した検索モデルが、命令チューニングの拒否を継承し、有害な要求を安全なクエリに変換することで、しばしば無視することを示す。
しかし、この安全性は脆弱である。
2つの単純な攻撃、1つはモデルに検索(検索攻撃)を強制し、もう1つはモデルに繰り返し検索(Multi-search攻撃)を奨励し、有害な検索と回答のカスケードをトリガーする。
ローカル検索とウェブ検索の2つのモデルファミリー(Qwen、Llama)全体で、これらの攻撃は拒絶率を最大60.0%下げ、安全性を82.5%、検索クエリ安全性を82.4%下げている。
この攻撃は、継承された拒絶トークンを生成する前に、有害なリクエストミラーリング検索クエリを生成するためにモデルをトリガーすることに成功した。
これは現在のRLトレーニングの中核的な弱点を露呈する。有害性を考慮せずに、継続的な効果的なクエリの生成を報いる。
結果として、RL検索モデルには、ユーザが容易に悪用できる脆弱性があり、安全な検索を最適化する安全を意識したエージェントRLパイプラインの開発が急務である。
関連論文リスト
- SafeSearch: Do Not Trade Safety for Utility in LLM Search Agents [14.471045017602428]
大言語モデル(LLM)ベースの検索エージェントは、クエリを反復的に生成し、外部情報を検索し、オープンドメインの質問に答える。
研究者は主に実用性の改善に力を入れてきたが、その安全性の行動は未調査のままだ。
SafeSearchは、複数目的の強化学習アプローチで、最終的な出力安全性/ユーティリティ報酬と、新しいクエリレベルのシェーピング用語を結合する。
論文 参考訳(メタデータ) (2025-10-19T21:47:19Z) - Adversarial Reinforcement Learning for Large Language Model Agent Safety [20.704989548285372]
大きな言語モデル(LLM)エージェントは、複雑なタスクを完了するためにGoogle Searchのようなツールを利用することができる。
現在の防衛戦略は、既知の攻撃のデータセットに精巧なLLMエージェントを頼っている。
対戦型強化学習(RL)を両プレイヤーゼロサムゲームとして定式化して活用する新しいフレームワークであるエージェント安全のための敵強化学習(ARLAS)を提案する。
論文 参考訳(メタデータ) (2025-10-06T23:09:18Z) - SafeSearch: Automated Red-Teaming for the Safety of LLM-Based Search Agents [63.70653857721785]
我々は、低品質な検索結果の出現率と、エージェントの動作を誤る可能性を実証する2つの実験を行った。
この脅威に対処するため、私たちは、体系的、スケーラブルで、コスト効率のよい自動化されたレッドチームフレームワークを導入しました。
論文 参考訳(メタデータ) (2025-09-28T07:05:17Z) - Self-Evaluation as a Defense Against Adversarial Attacks on LLMs [20.79833694266861]
自己評価を生かした LLM に対する敵攻撃に対する防御策を導入する。
本手法では, モデル微調整を必要とせず, 生成モデルの入力と出力を評価するために, 事前学習モデルを用いる。
提案手法の有効性を解析し, 各種設定で評価器を攻撃しようとする試みを含む。
論文 参考訳(メタデータ) (2024-07-03T16:03:42Z) - Evaluating Robustness of Generative Search Engine on Adversarial Factual Questions [89.35345649303451]
生成検索エンジンは、人々がオンラインで情報を求める方法を変える可能性を秘めている。
しかし,既存の大規模言語モデル(LLM)が支援する生成検索エンジンからの応答は必ずしも正確ではない。
検索強化世代は、敵がシステム全体を回避できるため、安全上の懸念を増す。
論文 参考訳(メタデータ) (2024-02-25T11:22:19Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - Language Model Unalignment: Parametric Red-Teaming to Expose Hidden
Harms and Biases [32.2246459413988]
Red-teamingは、モデルの安全行動をジェイルブレイクして、クエリの有害性を無視した有用なエージェントとして機能させることを目的としている。
我々は、安全研究、すなわち、Unalignmentを通してのレッドチームについて、新しい視点を提示する。
統一性はモデルパラメータを調整し、モデルの振舞いに深く根付いていないモデルガードレールを壊す。
論文 参考訳(メタデータ) (2023-10-22T13:55:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。