論文の概要: When Safety Becomes a Vulnerability: Exploiting LLM Alignment Homogeneity for Transferable Blocking in RAG
- arxiv url: http://arxiv.org/abs/2603.03919v1
- Date: Wed, 04 Mar 2026 10:27:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.268328
- Title: When Safety Becomes a Vulnerability: Exploiting LLM Alignment Homogeneity for Transferable Blocking in RAG
- Title(参考訳): 安全性が脆弱性となるとき--RAGにおけるトランスファーブルブロッキングのためのLCMアライメント均質の爆発
- Authors: Junchen Li, Chao Qi, Rongzheng Wang, Qizhi Chen, Liang Xu, Di Liang, Bob Simons, Shuang Liang,
- Abstract要約: TabooRAGは、厳格なブラックボックス設定の下で動作する、転送可能なブロッキング攻撃フレームワークである。
我々は,TabooRAGが安定なクロスモデル転送性と最先端のブロッキング成功率を実現し,GPT-5.2で最大96%に達することを示す。
- 参考スコア(独自算出の注目度): 16.528679832019854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) enhances the capabilities of large language models (LLMs) by incorporating external knowledge, but its reliance on potentially poisonable knowledge bases introduces new availability risks. Attackers can inject documents that cause LLMs to refuse benign queries, attacks known as blocking attacks. Prior blocking attacks relying on adversarial suffixes or explicit instruction injection are increasingly ineffective against modern safety-aligned LLMs. We observe that safety-aligned LLMs exhibit heightened sensitivity to query-relevant risk signals, causing alignment mechanisms designed for harm prevention to become a source of exploitable refusal. Moreover, mainstream alignment practices share overlapping risk categories and refusal criteria, a phenomenon we term alignment homogeneity, enabling restricted risk context constructed on an accessible LLM to transfer across LLMs. Based on this insight, we propose TabooRAG, a transferable blocking attack framework operating under a strict black-box setting. An attacker can generate a single retrievable blocking document per query by optimizing against a surrogate LLM in an accessible RAG environment, and directly transfer it to an unknown target RAG system without access to the target model. We further introduce a query-aware strategy library to reuse previously effective strategies and improve optimization efficiency. Experiments across 7 modern LLMs and 3 datasets demonstrate that TabooRAG achieves stable cross-model transferability and state-of-the-art blocking success rates, reaching up to 96% on GPT-5.2. Our findings show that increasingly standardized safety alignment across modern LLMs creates a shared and transferable attack surface in RAG systems, revealing a need for improved defenses.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)は、外部知識を取り入れた大規模言語モデル(LLM)の能力を高めるが、潜在的に有毒な知識ベースに依存しているため、新たな可用性リスクがもたらされる。
攻撃者は、LCMが不正なクエリを拒否する文書を注入することができる。
敵の接尾辞や明示的な命令インジェクションに依存する以前のブロック攻撃は、現代の安全に配慮したLSMに対してますます効果が低い。
我々は,安全性に配慮したLCMがクエリ関連リスク信号に対する感度を高めることを観察し,有害防止のために設計されたアライメント機構が悪用可能な拒絶の原因となることを見いだした。
さらに、主流のアライメントプラクティスは、重なり合うリスクカテゴリと拒絶基準、すなわち、アライメント同質性(アライメント同質性)と呼ばれる現象を共有し、アクセス可能なLLM上に構築された制限されたリスクコンテキストをLLM間で転送することを可能にする。
この知見に基づいて,厳密なブラックボックス設定下で動作する転送可能なブロッキングアタックフレームワークであるTabooRAGを提案する。
攻撃者は、アクセス可能なRAG環境で代理LDMに対して最適化し、ターゲットモデルにアクセスすることなく、未知のターゲットRAGシステムに直接転送することにより、クエリ毎に単一の検索可能なブロッキングドキュメントを生成することができる。
さらに,従来より有効な戦略を再利用し,最適化効率を向上させるために,クエリ対応戦略ライブラリを導入する。
7つの近代的なLCMと3つのデータセットにわたる実験は、TabooRAGが安定したクロスモデル転送性と最先端のブロッキング成功率を実現し、GPT-5.2で最大96%に達することを示した。
以上の結果から,現代のLCM間での安全アライメントの標準化が進み,RAGシステムにおいて共有かつ移動可能な攻撃面が生成され,防御の改善の必要性が示唆された。
関連論文リスト
- "Someone Hid It": Query-Agnostic Black-Box Attacks on LLM-Based Retrieval [44.49026453970601]
大規模言語モデル(LLM)は,検索システムにおいて有効なバックボーンとして機能している。
近年の研究では、LDMをベースとしたRetrievalは敵の攻撃に弱いことが示されている。
ゼロショットサロゲートLPMをベースとした転送可能なインジェクショントークンを生成する実用的なブラックボックス攻撃法を提案する。
論文 参考訳(メタデータ) (2026-01-30T22:28:04Z) - Friend or Foe: How LLMs' Safety Mind Gets Fooled by Intent Shift Attack [53.34204977366491]
大きな言語モデル(LLM)は、印象的な機能にもかかわらず、ジェイルブレイク攻撃に対して脆弱なままである。
本稿では,攻撃意図について LLM を混乱させる ISA (Intent Shift Attack) を提案する。
私たちのアプローチでは、元の要求に対して最小限の編集しか必要とせず、自然で、可読性があり、一見無害なプロンプトをもたらす。
論文 参考訳(メタデータ) (2025-11-01T13:44:42Z) - LLMZ+: Contextual Prompt Whitelist Principles for Agentic LLMs [6.009944398165616]
エージェントAIは、潜在的な攻撃者にとって価値のあるターゲットである。
DMZ(Demilitarized Zone)に属する典型的なソフトウェアアプリケーションとは異なり、エージェントLLMはAIの非決定的振る舞いに依存している。
この特徴は、運用セキュリティと情報セキュリティの両方に重大なセキュリティリスクをもたらす。
論文 参考訳(メタデータ) (2025-09-23T02:30:14Z) - Hoist with His Own Petard: Inducing Guardrails to Facilitate Denial-of-Service Attacks on Retrieval-Augmented Generation of LLMs [8.09404178079053]
Retrieval-Augmented Generation (RAG)は、Large Language Models (LLM)を外部の知識ベースと統合し、新たなセキュリティリスクを導入しながら出力品質を改善する。
RAGの脆弱性に関する既存の研究は、典型的には不正な知識や悪意のあるテキストを注入する検索メカニズムの活用に重点を置いており、誤った出力を誘導している。
本稿では, LLM の安全ガードレールの脆弱性を明らかにする。LLM の安全ガードレールは保護のために設計されているが, 敵による攻撃ベクトルとして利用することもできる。この脆弱性に基づいて, 本脆弱性を生かして, ガードレールの可利用性を損なうために, リバース・オブ・サービス・アタックである MutedRAG を提案する。
論文 参考訳(メタデータ) (2025-04-30T14:18:11Z) - Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。
この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。
本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-10T12:42:33Z) - Targeting the Core: A Simple and Effective Method to Attack RAG-based Agents via Direct LLM Manipulation [4.241100280846233]
大規模言語モデル(LLM)を駆使したAIエージェントは、シームレスで自然な、コンテキスト対応のコミュニケーションを可能にすることによって、人間とコンピュータのインタラクションを変革した。
本稿では,AIエージェント内のLLMコアを標的とした敵攻撃という,重大な脆弱性について検討する。
論文 参考訳(メタデータ) (2024-12-05T18:38:30Z) - Purple-teaming LLMs with Adversarial Defender Training [57.535241000787416]
本稿では,PAD(Adversarial Defender Training)を用いたPurple-teaming LLMを提案する。
PADは、赤チーム(アタック)技術と青チーム(セーフティトレーニング)技術を新たに取り入れることで、LSMを保護するために設計されたパイプラインである。
PADは、効果的な攻撃と堅牢な安全ガードレールの確立の両方において、既存のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-07-01T23:25:30Z) - Prompt Leakage effect and defense strategies for multi-turn LLM interactions [95.33778028192593]
システムプロンプトの漏洩は知的財産を侵害し、攻撃者に対する敵の偵察として機能する可能性がある。
我々は, LLM sycophancy 効果を利用して, 平均攻撃成功率 (ASR) を17.7%から86.2%に高めるユニークな脅威モデルを構築した。
7つのブラックボックス防衛戦略の緩和効果と、漏洩防止のためのオープンソースモデルを微調整する。
論文 参考訳(メタデータ) (2024-04-24T23:39:58Z) - Uncovering Safety Risks of Large Language Models through Concept Activation Vector [13.804245297233454]
大規模言語モデル(LLM)に対する攻撃を誘導する安全概念活性化ベクトル(SCAV)フレームワークについて紹介する。
そこで我々は,攻撃プロンプトと埋め込みレベルの攻撃の両方を生成できるSCAV誘導攻撃法を開発した。
本手法は,トレーニングデータが少なくなるとともに,攻撃成功率と応答品質を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T09:46:25Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。