論文の概要: Steering Over-refusals Towards Safety in Retrieval Augmented Generation
- arxiv url: http://arxiv.org/abs/2510.10452v1
- Date: Sun, 12 Oct 2025 05:09:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.94456
- Title: Steering Over-refusals Towards Safety in Retrieval Augmented Generation
- Title(参考訳): 店舗増産における安全への過度な拒絶
- Authors: Utsav Maskey, Mark Dras, Usman Naseem,
- Abstract要約: 大きな言語モデル(LLM)における安全性の整合性は、過剰な拒絶を引き起こす。
検索増強世代(RAG)におけるこの現象を解析する。
我々は医学、化学、オープンドメインにまたがるベンチマークであるRagRefuseを構築した。
- 参考スコア(独自算出の注目度): 16.594400974742523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety alignment in large language models (LLMs) induces over-refusals -- where LLMs decline benign requests due to aggressive safety filters. We analyze this phenomenon in retrieval-augmented generation (RAG), where both the query intent and retrieved context properties influence refusal behavior. We construct RagRefuse, a domain-stratified benchmark spanning medical, chemical, and open domains, pairing benign and harmful queries with controlled context contamination patterns and sizes. Our analysis shows that context arrangement / contamination, domain of query and context, and harmful-text density trigger refusals even on benign queries, with effects depending on model-specific alignment choices. To mitigate over-refusals, we introduce \textsc{SafeRAG-Steering}, a model-centric embedding intervention that steers the embedding regions towards the confirmed safe, non-refusing output regions at inference time. This reduces over-refusals in contaminated RAG pipelines while preserving legitimate refusals.
- Abstract(参考訳): 大規模言語モデル(LLM)の安全性アライメント(安全性アライメント)は、過度な拒絶を引き起こします。
本稿では,検索目的と検索コンテキスト特性の両方が拒否行動に影響を与えるRAG(Research-augmented Generation)において,この現象を解析する。
我々は、医学、化学、オープンドメインにまたがるドメイン階層化ベンチマークであるRagRefuseを構築し、コンテキスト汚染パターンとサイズを制御して良質で有害なクエリをペアリングする。
分析の結果、コンテキストアレンジメント/汚染、クエリとコンテキストのドメイン、有害なテキスト密度トリガは、良質なクエリでも拒否され、モデル固有のアレンジメントの選択による影響が示されている。
オーバーリファリングを緩和するために,モデル中心の埋め込み介入であるtextsc{SafeRAG-Steering}を導入する。
これにより、汚染されたRAGパイプラインの過剰な拒絶を低減し、正当な拒絶を防ぎます。
関連論文リスト
- SeCon-RAG: A Two-Stage Semantic Filtering and Conflict-Free Framework for Trustworthy RAG [35.42029959485188]
Retrieval-augmented Generation (RAG) システムは、外部知識を持つ大規模言語モデルを強化する。
既存の防御は、しばしば攻撃的なフィルタリングを適用し、不要な貴重な情報が失われる。
信頼性の高いRAGのための2段階のセマンティックフィルタリングとコンフリクトフリーフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-10T03:44:29Z) - Context Engineering for Trustworthiness: Rescorla Wagner Steering Under Mixed and Inappropriate Contexts [55.70338710797578]
関連コンテンツと不適切なコンテンツを含む実世界のコンテキストとクエリをペアリングするPoisoned Context Testbedを紹介した。
動物における連想学習に触発されて、神経科学からRescorla-Wagner(RW)モデルを適用し、競合する文脈信号がLLM出力にどのように影響するかを定量化する。
RW-ステアリング(RW-Steering)は、2段階の微調整に基づくアプローチであり、モデルが不適切な信号を内部的に識別し無視することを可能にする。
論文 参考訳(メタデータ) (2025-09-02T00:40:34Z) - Understanding and Mitigating Overrefusal in LLMs from an Unveiling Perspective of Safety Decision Boundary [28.247658612894668]
RASSは、安全境界付近で過度に拒絶するプロンプトを戦略的にターゲットとする、プロンプト生成と選択のための自動化されたフレームワークである。
RASSは、境界に沿ったプロンプトを効果的に識別し、キュレートし、オーバーリフレクションのより効果的でターゲットを絞った緩和を可能にする。
論文 参考訳(メタデータ) (2025-05-23T19:30:49Z) - EcoSafeRAG: Efficient Security through Context Analysis in Retrieval-Augmented Generation [8.503648859600107]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の静的知識制限を補う
ギャップを埋めるために、EcoSafeRAGは文レベルの処理とベイト誘導コンテキストの多様性検出を使用する。
実験によると、EcoSafeRAGはプラグインとプレイのデプロイで最先端のセキュリティを提供する。
論文 参考訳(メタデータ) (2025-05-16T11:40:32Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Parallel Key-Value Cache Fusion for Position Invariant RAG [55.9809686190244]
大規模言語モデル(LLM)は、コンテキスト内の関連する情報の位置に敏感である。
入力コンテキスト順序に関係なく,デコーダのみのモデルに対して一貫した出力を生成するフレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-13T17:50:30Z) - Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。
本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。
我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文 参考訳(メタデータ) (2024-09-24T14:52:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。