論文の概要: RAG Makes Guardrails Unsafe? Investigating Robustness of Guardrails under RAG-style Contexts
- arxiv url: http://arxiv.org/abs/2510.05310v1
- Date: Mon, 06 Oct 2025 19:20:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.954381
- Title: RAG Makes Guardrails Unsafe? Investigating Robustness of Guardrails under RAG-style Contexts
- Title(参考訳): RAGはガードレールの安全を損なう? RAGスタイルのコンテキスト下でのガードレールのロバスト性を調査
- Authors: Yining She, Daniel W. Peterson, Marianne Menglin Liu, Vikas Upadhyay, Mohammad Hossein Chaghazardi, Eunsuk Kang, Dan Roth,
- Abstract要約: 外部LLMベースのガードレールモデルは、安全でない入力と出力をスクリーニングする一般的なソリューションとして登場した。
LLMをベースとしたガードレールが,文脈に埋め込まれた追加情報に対していかに堅牢かを検討した。
- 参考スコア(独自算出の注目度): 39.58550043591753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the increasing adoption of large language models (LLMs), ensuring the safety of LLM systems has become a pressing concern. External LLM-based guardrail models have emerged as a popular solution to screen unsafe inputs and outputs, but they are themselves fine-tuned or prompt-engineered LLMs that are vulnerable to data distribution shifts. In this paper, taking Retrieval Augmentation Generation (RAG) as a case study, we investigated how robust LLM-based guardrails are against additional information embedded in the context. Through a systematic evaluation of 3 Llama Guards and 2 GPT-oss models, we confirmed that inserting benign documents into the guardrail context alters the judgments of input and output guardrails in around 11% and 8% of cases, making them unreliable. We separately analyzed the effect of each component in the augmented context: retrieved documents, user query, and LLM-generated response. The two mitigation methods we tested only bring minor improvements. These results expose a context-robustness gap in current guardrails and motivate training and evaluation protocols that are robust to retrieval and query composition.
- Abstract(参考訳): 大規模言語モデル (LLMs) の普及に伴い, LLM システムの安全性確保が懸念されている。
外部LLMベースのガードレールモデルは、安全でない入力や出力をスクリーニングする一般的なソリューションとして登場したが、それ自体はデータ分散シフトに対して脆弱な微調整または急速エンジニアリングのLSMである。
本稿では,レトリーバル拡張生成(RAG)を事例として,LLMを用いたガードレールが文脈に埋め込まれた付加情報に対して頑健であることを示す。
Llama Guard 3 と GPT-oss 2 の系統的評価により,良性文書をガードレールの文脈に挿入すると,約11% と8% の症例でガードレールの入力と出力の判断が変化し,信頼性が低下することが確認された。
拡張コンテキストにおける各コンポーネントの影響を,検索されたドキュメント,ユーザクエリ,LLM生成応答など,別々に分析した。
私たちがテストした2つの緩和方法は、小さな改善をもたらすだけです。
これらの結果から,現在のガードレールにおけるコンテキスト・ロバスト性ギャップが明らかになり,検索・クエリ合成に堅牢なトレーニング・評価プロトコルのモチベーションが得られた。
関連論文リスト
- LLM Embedding-based Attribution (LEA): Quantifying Source Contributions to Generative Model's Response for Vulnerability Analysis [1.3543506826034255]
大規模言語モデル(LLM)はサイバーセキュリティの脅威分析にますます利用されているが、セキュリティに敏感な環境への展開は信頼と安全性の懸念を引き起こす。
本研究は、脆弱性攻撃分析のために生成された応答を分析するために、埋め込み属性(LEA)を提案する。
以上の結果から,LEAは大規模モデルにおいて95%以上の精度で,非検索,汎用検索,有効検索シナリオの明確な区別を検出できることを示した。
論文 参考訳(メタデータ) (2025-06-12T21:20:10Z) - LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。
本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文 参考訳(メタデータ) (2025-03-04T12:55:07Z) - TrustRAG: Enhancing Robustness and Trustworthiness in Retrieval-Augmented Generation [31.231916859341865]
TrustRAGは、生成のために取得される前に、悪意のある、無関係なコンテンツを体系的にフィルタリングするフレームワークである。
TrustRAGは、検索精度、効率、攻撃抵抗を大幅に改善する。
論文 参考訳(メタデータ) (2025-01-01T15:57:34Z) - Towards More Robust Retrieval-Augmented Generation: Evaluating RAG Under Adversarial Poisoning Attacks [45.07581174558107]
Retrieval-Augmented Generation (RAG) システムは幻覚を緩和するための有望な解決策として登場した。
RAGシステムは、検索コーパスに注入された悪意のある通路が、モデルに誤った結果をもたらす可能性がある、敵の毒殺攻撃に対して脆弱である。
本稿では、RAGシステムがこのような攻撃下でどのように振る舞うか、その堅牢性がどのように改善されるかについて、厳密に制御された実証研究を示す。
論文 参考訳(メタデータ) (2024-12-21T17:31:52Z) - Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation [43.630437906898635]
Invar-RAGと呼ばれる2段階ファインチューニングアーキテクチャを提案する。
検索段階では、LORAに基づく表現学習を統合してLLMベースの検索器を構築する。
生成段階では、抽出した情報に基づいて回答を生成する際のLCM精度を向上させるための精細調整法が用いられる。
論文 参考訳(メタデータ) (2024-11-11T14:25:37Z) - ShieldGemma: Generative AI Content Moderation Based on Gemma [49.91147965876678]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。
モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文 参考訳(メタデータ) (2024-07-31T17:48:14Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。