論文の概要: RAG LLMs are Not Safer: A Safety Analysis of Retrieval-Augmented Generation for Large Language Models
- arxiv url: http://arxiv.org/abs/2504.18041v1
- Date: Fri, 25 Apr 2025 03:25:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.626002
- Title: RAG LLMs are Not Safer: A Safety Analysis of Retrieval-Augmented Generation for Large Language Models
- Title(参考訳): RAG LLMは安全ではない:大規模言語モデルのための検索拡張生成の安全性解析
- Authors: Bang An, Shiyue Zhang, Mark Dredze,
- Abstract要約: RAGはモデルの安全性を低くし、安全性のプロファイルを変更します。
安全なモデルと安全なドキュメントの組み合わせでさえ、安全でない世代を引き起こす可能性がある。
我々の研究は、RAG LLMに特化して、安全研究とリピート手法の必要性を強調している。
- 参考スコア(独自算出の注目度): 42.258185664775425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efforts to ensure the safety of large language models (LLMs) include safety fine-tuning, evaluation, and red teaming. However, despite the widespread use of the Retrieval-Augmented Generation (RAG) framework, AI safety work focuses on standard LLMs, which means we know little about how RAG use cases change a model's safety profile. We conduct a detailed comparative analysis of RAG and non-RAG frameworks with eleven LLMs. We find that RAG can make models less safe and change their safety profile. We explore the causes of this change and find that even combinations of safe models with safe documents can cause unsafe generations. In addition, we evaluate some existing red teaming methods for RAG settings and show that they are less effective than when used for non-RAG settings. Our work highlights the need for safety research and red-teaming methods specifically tailored for RAG LLMs.
- Abstract(参考訳): 大きな言語モデル(LLM)の安全性を確保する努力には、安全性の微調整、評価、レッドチーム化などがある。
しかし、Retrieval-Augmented Generation (RAG)フレームワークが広く使われているにもかかわらず、AIの安全作業は標準LLMに焦点を当てている。
我々は、RAGおよび非RAGフレームワークの詳細な比較分析を行い、11個のLLMについて検討した。
RAGはモデルの安全性を低くし、安全性のプロファイルを変更します。
この変更の原因を探究し、安全なモデルと安全なドキュメントの組み合わせでさえ、安全でない世代を引き起こす可能性があることを発見した。
さらに、RAG設定のための既存のレッドチーム方式を評価し、RAG設定以外の場合よりも効果が低いことを示す。
我々の研究は、RAG LLMに特化して、安全研究とリピート手法の必要性を強調している。
関連論文リスト
- SafeRAG: Benchmarking Security in Retrieval-Augmented Generation of Large Language Model [17.046058202577985]
我々は、RAGセキュリティを評価するために、SafeRAGというベンチマークを導入する。
まず、アタックタスクを銀のノイズ、コンテキスト間競合、ソフト広告、ホワイト・デニアル・オブ・サービスに分類する。
次に、SafeRAGデータセットを使用して、RAGが遭遇する可能性のあるさまざまな攻撃シナリオをシミュレートします。
論文 参考訳(メタデータ) (2025-01-28T17:01:31Z) - SaLoRA: Safety-Alignment Preserved Low-Rank Adaptation [41.91948079316541]
近年の研究では、LoRAの微調整が大きな言語モデルの安全性を損なう可能性があるという懸念が持ち上がっている。
本稿では,安全性に配慮した低ランク適応(SaLoRA)を提案する。
以前のLoRAメソッドやその派生型とは異なり、SaLoRAは本来のアライメントを中断することなく、LLMへのターゲット変更を可能にする。
実験の結果,SaLoRAは様々な微調整タスクにおいて,様々な評価指標のアダプタベースのアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-01-03T11:34:28Z) - Enhancing AI Safety Through the Fusion of Low Rank Adapters [7.384556630042846]
低ランク適応核融合は、悪意のあるプロンプトに直面した場合に有害な応答を緩和する。
タスクアダプタと安全アダプタとのLoRA融合を利用して, 有害度率を42%低減した。
また、モデルが安全でないものに近い安全なプロンプトを拒否する、誇張された安全行動も観察する。
論文 参考訳(メタデータ) (2024-12-30T13:12:27Z) - Separate the Wheat from the Chaff: A Post-Hoc Approach to Safety Re-Alignment for Fine-Tuned Language Models [30.93821289892195]
IRR (Identify, Remove, and Recalibrate for Safety Realignment) を提案する。
IRRの中核は、保持されたパラメータを再調整しながら、微調整されたモデルから安全でないデルタパラメータを特定し、除去することである。
この結果から,IRRは有害なクエリやジェイルブレイク攻撃などの安全性ベンチマークにおいて,微調整モデルの安全性を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-12-15T03:58:38Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - Detectors for Safe and Reliable LLMs: Implementations, Uses, and Limitations [76.19419888353586]
大規模言語モデル(LLM)は、不誠実なアウトプットからバイアスや有害な世代に至るまで、さまざまなリスクを受けやすい。
我々は,様々な害のラベルを提供するコンパクトで容易に構築できる分類モデルである,検出器のライブラリを作成し,展開する取り組みについて述べる。
論文 参考訳(メタデータ) (2024-03-09T21:07:16Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。