論文の概要: Your RAG is Unfair: Exposing Fairness Vulnerabilities in Retrieval-Augmented Generation via Backdoor Attacks
- arxiv url: http://arxiv.org/abs/2509.22486v1
- Date: Fri, 26 Sep 2025 15:33:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.552489
- Title: Your RAG is Unfair: Exposing Fairness Vulnerabilities in Retrieval-Augmented Generation via Backdoor Attacks
- Title(参考訳): RAGは不公平:バックドアアタックによる検索・拡張ジェネレーションにおけるフェアネスの脆弱性を露呈する
- Authors: Gaurav Bagwe, Saket S. Chaturvedi, Xiaolong Ma, Xiaoyong Yuan, Kuang-Ching Wang, Lan Zhang,
- Abstract要約: Retrieval-augmented Generation (RAG)は、検索機構と生成モデルを統合することにより、現実のグラウンド化を促進する。
本稿では,2段階のバックドアアタックを通じてRAGの公平性の脆弱性を明らかにするシステムフレームワークであるBiasRAGを紹介する。
事前学習フェーズでは、クエリエンコーダが妥協され、ターゲットグループを意図した社会的バイアスに整合させ、長期的持続性を確保する。
デプロイ後の段階では、バックドアを強化するために、敵文書を知識ベースに注入する。
- 参考スコア(独自算出の注目度): 13.32144267469022
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Retrieval-augmented generation (RAG) enhances factual grounding by integrating retrieval mechanisms with generative models but introduces new attack surfaces, particularly through backdoor attacks. While prior research has largely focused on disinformation threats, fairness vulnerabilities remain underexplored. Unlike conventional backdoors that rely on direct trigger-to-target mappings, fairness-driven attacks exploit the interaction between retrieval and generation models, manipulating semantic relationships between target groups and social biases to establish a persistent and covert influence on content generation. This paper introduces BiasRAG, a systematic framework that exposes fairness vulnerabilities in RAG through a two-phase backdoor attack. During the pre-training phase, the query encoder is compromised to align the target group with the intended social bias, ensuring long-term persistence. In the post-deployment phase, adversarial documents are injected into knowledge bases to reinforce the backdoor, subtly influencing retrieved content while remaining undetectable under standard fairness evaluations. Together, BiasRAG ensures precise target alignment over sensitive attributes, stealthy execution, and resilience. Empirical evaluations demonstrate that BiasRAG achieves high attack success rates while preserving contextual relevance and utility, establishing a persistent and evolving threat to fairness in RAG.
- Abstract(参考訳): Retrieval-augmented Generation (RAG)は、検索機構と生成モデルを統合することにより、現実的なグラウンド化を促進するが、特にバックドアアタックを通じて、新たなアタックサーフェスを導入する。
以前の研究では、偽情報の脅威に主に焦点が当てられていたが、フェアネスの脆弱性は未発見のままである。
直接トリガー・ツー・ターゲットマッピングに依存する従来のバックドアとは異なり、フェアネスによる攻撃は、検索と生成モデルの間の相互作用を利用して、ターゲットグループと社会的バイアス間の意味的関係を操作し、コンテンツ生成に永続的で隠蔽的な影響を確立する。
本稿では,2段階のバックドアアタックを通じてRAGの公平性の脆弱性を明らかにするシステムフレームワークであるBiasRAGを紹介する。
事前学習フェーズでは、クエリエンコーダが妥協され、ターゲットグループを意図した社会的バイアスに整合させ、長期的な持続性を確保する。
デプロイ後の段階では、標準的な公正性評価では検出できないまま、バックドアを補強するために、敵文書を知識ベースに注入し、検索された内容に微妙に影響を及ぼす。
BiasRAGは、機密属性、ステルス実行、レジリエンスに対する正確なターゲットアライメントを保証する。
実証的な評価では、BiasRAGは文脈的妥当性と実用性を保ちながら高い攻撃成功率を達成し、RAGの公平性に対する永続的で進化的な脅威を確立している。
関連論文リスト
- The Silent Saboteur: Imperceptible Adversarial Attacks against Black-Box Retrieval-Augmented Generation Systems [101.68501850486179]
本稿では,RAGシステムに対する敵攻撃について検討し,その脆弱性を同定する。
このタスクは、ターゲット文書を検索する非知覚的な摂動を見つけることを目的としており、もともとはトップ$k$の候補セットから除外されていた。
本稿では、攻撃者とターゲットRAG間の相互作用を追跡する強化学習ベースのフレームワークであるReGENTを提案する。
論文 参考訳(メタデータ) (2025-05-24T08:19:25Z) - Safety Devolution in AI Agents [56.482973617087254]
本研究では,検索アクセスの拡大がモデル信頼性,バイアス伝搬,有害コンテンツ生成に与える影響について検討した。
整列 LLM 上に構築された検索補助エージェントは、検索なしでの無検閲モデルよりも安全でない振る舞いをすることが多い。
これらの発見は、検索が強化され、ますます自律的なAIシステムにおいて、公正性と信頼性を確保するための堅牢な緩和戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-20T11:21:40Z) - Defending the Edge: Representative-Attention for Mitigating Backdoor Attacks in Federated Learning [7.808916974942399]
不均一エッジデバイスは、多種多様で非独立で、同一に分散された(非IID)データを生成する。
本稿では, 悪意のあるクライアントと良識を区別するための, FeRA という, 表現力に基づく防衛機構を提案する。
本評価では,エッジデバイスに典型的な非IIDデータ分散に挑戦するなど,さまざまなFLシナリオにおけるFeRAの堅牢性を示す。
論文 参考訳(メタデータ) (2025-05-15T13:44:32Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - ParamMute: Suppressing Knowledge-Critical FFNs for Faithful Retrieval-Augmented Generation [91.20492150248106]
本研究では,不誠実な生成の背後にある内部メカニズムを解明し,不均等に活性化される中深度フィードフォワードネットワーク(FFN)のサブセットを同定する。
本研究では,不信感関連FFNの活性化を抑制することにより,文脈的忠実度を向上させるフレームワークであるParametric Knowledge Mutingを提案する。
実験結果から,ParamMuteはCoFaithfulQAと確立されたConFiQAベンチマークの両方の信頼度を大幅に向上し,パラメトリックメモリへの依存度を大幅に低下させることが示された。
論文 参考訳(メタデータ) (2025-02-21T15:50:41Z) - FlippedRAG: Black-Box Opinion Manipulation Adversarial Attacks to Retrieval-Augmented Generation Models [22.35026334463735]
我々は、ブラックボックスRAGシステムに対するトランスファーベースの敵攻撃であるFlippedRAGを提案する。
FlippedRAGは、RAG生成反応の意見において平均50%の方向シフトを達成する。
これらの結果は、RAGシステムのセキュリティと信頼性を確保するために革新的な防衛ソリューションを開発する緊急の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-01-06T12:24:57Z) - TrustRAG: Enhancing Robustness and Trustworthiness in Retrieval-Augmented Generation [31.231916859341865]
TrustRAGは、生成のために取得される前に、悪意のある、無関係なコンテンツを体系的にフィルタリングするフレームワークである。
TrustRAGは、検索精度、効率、攻撃抵抗を大幅に改善する。
論文 参考訳(メタデータ) (2025-01-01T15:57:34Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。