論文の概要: Bias Amplification in RAG: Poisoning Knowledge Retrieval to Steer LLMs
- arxiv url: http://arxiv.org/abs/2506.11415v1
- Date: Fri, 13 Jun 2025 02:28:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.629859
- Title: Bias Amplification in RAG: Poisoning Knowledge Retrieval to Steer LLMs
- Title(参考訳): RAGにおけるバイアス増幅 : ステアLSMに対する知識検索
- Authors: Linlin Wang, Tianqing Zhu, Laiqiao Qin, Longxiang Gao, Wanlei Zhou,
- Abstract要約: 大規模言語モデルでは、検索拡張生成(RAG)システムは、外部知識を統合することで、大規模言語モデルの性能を大幅に向上させることができる。
既存の研究は主に、RAGシステムにおける中毒攻撃が、モデルバイアスを増幅する可能性を見越して、モデル出力品質にどのように影響するかに焦点を当てている。
本稿では,言語モデルのバイアスを増幅する攻撃経路を体系的に調査するBias Retrieval and Reward Attack(BRRA)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 17.364495894862902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Large Language Models, Retrieval-Augmented Generation (RAG) systems can significantly enhance the performance of large language models by integrating external knowledge. However, RAG also introduces new security risks. Existing research focuses mainly on how poisoning attacks in RAG systems affect model output quality, overlooking their potential to amplify model biases. For example, when querying about domestic violence victims, a compromised RAG system might preferentially retrieve documents depicting women as victims, causing the model to generate outputs that perpetuate gender stereotypes even when the original query is gender neutral. To show the impact of the bias, this paper proposes a Bias Retrieval and Reward Attack (BRRA) framework, which systematically investigates attack pathways that amplify language model biases through a RAG system manipulation. We design an adversarial document generation method based on multi-objective reward functions, employ subspace projection techniques to manipulate retrieval results, and construct a cyclic feedback mechanism for continuous bias amplification. Experiments on multiple mainstream large language models demonstrate that BRRA attacks can significantly enhance model biases in dimensions. In addition, we explore a dual stage defense mechanism to effectively mitigate the impacts of the attack. This study reveals that poisoning attacks in RAG systems directly amplify model output biases and clarifies the relationship between RAG system security and model fairness. This novel potential attack indicates that we need to keep an eye on the fairness issues of the RAG system.
- Abstract(参考訳): 大規模言語モデルでは、検索拡張生成(RAG)システムは、外部知識を統合することで、大規模言語モデルの性能を大幅に向上させることができる。
しかし、RAGは新たなセキュリティリスクも導入している。
既存の研究は主に、RAGシステムにおける中毒攻撃が、モデルバイアスを増幅する可能性を見越して、モデル出力品質にどのように影響するかに焦点を当てている。
例えば、家庭内暴力の被害者について質問する場合、RAGシステムは女性を被害者として描写した文書を優先的に検索し、オリジナルのクエリが性中立である場合でも、性別のステレオタイプを持続させる出力を生成する。
本稿では,言語モデルのバイアスをRAGシステム操作によって増幅する攻撃経路を系統的に検討する,バイアス検索・逆攻撃(BRRA)フレームワークを提案する。
我々は,多目的報酬関数に基づく逆文書生成手法を設計し,サブスペースプロジェクション技術を用いて検索結果を操作し,連続バイアス増幅のための循環フィードバック機構を構築する。
複数の主要言語モデルに対する実験により、BRRA攻撃は次元のモデルバイアスを大幅に向上させることができることが示された。
さらに,攻撃の影響を効果的に緩和する2段階防御機構についても検討する。
本研究により,RAGシステムにおける中毒攻撃は,モデル出力バイアスを直接増幅し,RAGシステムのセキュリティとモデルフェアネスの関係を明らかにする。
この新たな攻撃の可能性は、RAGシステムの公平性の問題に目を向ける必要があることを示している。
関連論文リスト
- The Silent Saboteur: Imperceptible Adversarial Attacks against Black-Box Retrieval-Augmented Generation Systems [101.68501850486179]
本稿では,RAGシステムに対する敵攻撃について検討し,その脆弱性を同定する。
このタスクは、ターゲット文書を検索する非知覚的な摂動を見つけることを目的としており、もともとはトップ$k$の候補セットから除外されていた。
本稿では、攻撃者とターゲットRAG間の相互作用を追跡する強化学習ベースのフレームワークであるReGENTを提案する。
論文 参考訳(メタデータ) (2025-05-24T08:19:25Z) - Chain-of-Thought Poisoning Attacks against R1-based Retrieval-Augmented Generation Systems [39.05753852489526]
既存の敵攻撃法は通常、知識ベース中毒を利用してRAGシステムの脆弱性を調査する。
本稿では、R1ベースのRAGシステムからの推論プロセステンプレートを用いて、誤った知識を敵の文書にラップし、それらを知識ベースに注入してRAGシステムを攻撃する。
提案手法の鍵となる考え方は,モデルのトレーニング信号に一致したチェーン・オブ・シンクレット・パターンをシミュレートすることで,正史的推論プロセスとしてモデルによって誤解される可能性がある,というものである。
論文 参考訳(メタデータ) (2025-05-22T08:22:46Z) - POISONCRAFT: Practical Poisoning of Retrieval-Augmented Generation for Large Language Models [4.620537391830117]
大型言語モデル(LLM)は幻覚の影響を受けやすいため、誤った結果や誤解を招く可能性がある。
Retrieval-augmented Generation (RAG) は、外部知識源を活用することで幻覚を緩和する有望なアプローチである。
本稿では,POISONCRAFTと呼ばれるRAGシステムに対する中毒攻撃について検討する。
論文 参考訳(メタデータ) (2025-05-10T09:36:28Z) - AlignRAG: Leveraging Critique Learning for Evidence-Sensitive Retrieval-Augmented Reasoning [61.28113271728859]
RAGは知識ベースで大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
標準的なRAGパイプラインは、モデル推論が取得した証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
本研究では,RAGをRetrieval-Augmented Reasoningと解釈し,中心的だが未探索な問題であるtextitReasoning Misalignmentを同定する。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Retrievals Can Be Detrimental: A Contrastive Backdoor Attack Paradigm on Retrieval-Augmented Diffusion Models [37.66349948811172]
拡散モデル (DM) は近年, 顕著な生成能力を示した。
近年の研究では、高度な検索・拡張生成(RAG)技術によってDMが強化されている。
RAGは、モデルパラメータを著しく低減しつつ、DMの生成と一般化能力を向上させる。
大きな成功にもかかわらず、RAGはさらなる調査を保証できる新しいセキュリティ問題を導入するかもしれない。
論文 参考訳(メタデータ) (2025-01-23T02:42:28Z) - Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。
本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。
我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文 参考訳(メタデータ) (2024-09-24T14:52:14Z) - Black-Box Opinion Manipulation Attacks to Retrieval-Augmented Generation of Large Language Models [21.01313168005792]
我々は、意見操作のためのブラックボックス攻撃に直面した場合、検索強化生成(RAG)モデルの脆弱性を明らかにする。
このような攻撃がユーザの認知と意思決定に与える影響について検討する。
論文 参考訳(メタデータ) (2024-07-18T17:55:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。