論文の概要: FlipedRAG: Black-Box Opinion Manipulation Attacks to Retrieval-Augmented Generation of Large Language Models
- arxiv url: http://arxiv.org/abs/2501.02968v2
- Date: Sun, 19 Jan 2025 14:23:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 15:04:32.818551
- Title: FlipedRAG: Black-Box Opinion Manipulation Attacks to Retrieval-Augmented Generation of Large Language Models
- Title(参考訳): FlipedRAG: 大規模言語モデル検索のためのブラックボックスオピニオン操作攻撃
- Authors: Zhuo Chen, Yuyang Gong, Miaokun Chen, Haotan Liu, Qikai Cheng, Fan Zhang, Wei Lu, Xiaozhong Liu, Jiawei Liu,
- Abstract要約: Retrieval-Augmented Generation (RAG)は、知識データベースから関連する情報を動的に取得することで、幻覚とリアルタイムの制約に対処する。
本稿では,より現実的で脅迫的なシナリオとして,RAGに対する議論の的となっている論点に対する意見操作について紹介する。
本稿では、転送ベースであるFlipedRAGと呼ばれる新しいRAGブラックボックス攻撃手法を提案する。
- 参考スコア(独自算出の注目度): 19.41533176888415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) addresses hallucination and real-time constraints by dynamically retrieving relevant information from a knowledge database to supplement the LLMs' input. When presented with a query, RAG selects the most semantically similar texts from its knowledge bases and uses them as context for the LLMs to generate more accurate responses. RAG also creates a new attack surface, especially since RAG databases are frequently sourced from public domains. While existing studies have predominantly focused on optimizing RAG's performance and efficiency, emerging research has begun addressing the security concerns associated with RAG. However, these works have some limitations, typically focusing on either white-box methodologies or heuristic-based black-box attacks. Furthermore, prior research has mainly targeted simple factoid question answering, which is neither practically challenging nor resistant to correction. In this paper, we unveil a more realistic and threatening scenario: opinion manipulation for controversial topics against RAG. Particularly, we propose a novel RAG black-box attack method, termed FlipedRAG, which is transfer-based. By leveraging instruction engineering, we obtain partial retrieval model outputs from black-box RAG system, facilitating the training of surrogate models to enhance the effectiveness of opinion manipulation attack. Extensive experimental results confirms that our approach significantly enhances the average success rate of opinion manipulation by 16.7%. It achieves an average of a 50% directional change in the opinion polarity of RAG responses across four themes. Additionally, it induces a 20% shift in user cognition. Furthermore, we discuss the efficacy of potential defense mechanisms and conclude that they are insufficient in mitigating this type of attack, highlighting the urgent need to develop novel defensive strategies.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)は、LLMの入力を補うために知識データベースから関連する情報を動的に取得することで、幻覚とリアルタイムの制約に対処する。
クエリを提示すると、RAGはその知識ベースから最も意味的に類似したテキストを選択し、LSMのコンテキストとして使用してより正確な応答を生成する。
特にRAGデータベースはパブリックドメインから頻繁にソースされるため、RAGは新たなアタックサーフェスも生成する。
既存の研究は主にRAGの性能と効率の最適化に重点を置いているが、新たな研究はRAGに関連するセキュリティ問題に対処し始めている。
しかしながら、これらの作品にはいくつかの制限があり、通常はホワイトボックスの方法論やヒューリスティックベースのブラックボックスの攻撃に焦点を当てている。
さらに、従来の研究は主に単純なファクトイドの質問応答を対象としており、実際は困難でも、修正に抵抗するものではない。
本稿では,より現実的で脅迫的なシナリオとして,RAGに対する議論の的となっている論点に対する意見操作について紹介する。
特に、転送ベースであるFlipedRAGと呼ばれる新しいRAGブラックボックス攻撃手法を提案する。
指導工学を活用することで,ブラックボックスRAGシステムからの部分的検索モデル出力を取得し,代理モデルのトレーニングを容易にし,意見操作攻撃の有効性を高める。
その結果,提案手法は意見操作の平均成功率を16.7%向上させることがわかった。
4つのテーマにまたがるRAG応答の意見極性の平均50%の方向変化を達成する。
さらに、ユーザ認知の20%シフトも引き起こす。
さらに,防衛機構の有効性を議論し,このような攻撃を緩和するには不十分であると結論付け,新たな防衛戦略を急務に進める必要性を浮き彫りにする。
関連論文リスト
- PR-Attack: Coordinated Prompt-RAG Attacks on Retrieval-Augmented Generation in Large Language Models via Bilevel Optimization [13.751251342738225]
大規模言語モデル(LLM)は、幅広いアプリケーションで顕著な性能を示している。
それらはまた、時代遅れの知識や幻覚への感受性のような固有の制限も示している。
近年の取り組みはRAGベースのLLMのセキュリティに重点を置いているが、既存の攻撃方法は3つの重大な課題に直面している。
本稿では,少数の有毒テキストを知識データベースに導入する新しい最適化型攻撃であるPrompt-RAGアタック(PR-アタック)を提案する。
論文 参考訳(メタデータ) (2025-04-10T13:09:50Z) - Poisoned-MRAG: Knowledge Poisoning Attacks to Multimodal Retrieval Augmented Generation [71.32665836294103]
マルチモーダル検索強化世代(RAG)は視覚言語モデル(VLM)の視覚的推論能力を向上させる
本研究では,マルチモーダルRAGシステムに対する最初の知識中毒攻撃であるtextitPoisoned-MRAGを紹介する。
論文 参考訳(メタデータ) (2025-03-08T15:46:38Z) - MM-PoisonRAG: Disrupting Multimodal RAG with Local and Global Poisoning Attacks [109.53357276796655]
Retrieval Augmented Generation (RAG) を備えたマルチモーダル大言語モデル(MLLM)
RAGはクエリ関連外部知識の応答を基盤としてMLLMを強化する。
この依存は、知識中毒攻撃(英語版)という、危険だが未発見の安全リスクを生じさせる。
本稿では,2つの攻撃戦略を持つ新しい知識中毒攻撃フレームワークMM-PoisonRAGを提案する。
論文 参考訳(メタデータ) (2025-02-25T04:23:59Z) - REINFORCE Adversarial Attacks on Large Language Models: An Adaptive, Distributional, and Semantic Objective [57.57786477441956]
応答の個体群に対する適応的・意味的最適化問題を提案する。
我々の目標は、Llama3の攻撃成功率(ASR)を2倍にし、サーキットブレーカー防御でASRを2%から50%に向上させることである。
論文 参考訳(メタデータ) (2025-02-24T15:34:48Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Retrievals Can Be Detrimental: A Contrastive Backdoor Attack Paradigm on Retrieval-Augmented Diffusion Models [37.66349948811172]
拡散モデル (DM) は近年, 顕著な生成能力を示した。
近年の研究では、高度な検索・拡張生成(RAG)技術によってDMが強化されている。
RAGは、モデルパラメータを著しく低減しつつ、DMの生成と一般化能力を向上させる。
大きな成功にもかかわらず、RAGはさらなる調査を保証できる新しいセキュリティ問題を導入するかもしれない。
論文 参考訳(メタデータ) (2025-01-23T02:42:28Z) - Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。
本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。
我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文 参考訳(メタデータ) (2024-09-24T14:52:14Z) - Rag and Roll: An End-to-End Evaluation of Indirect Prompt Manipulations in LLM-based Application Frameworks [12.061098193438022]
Retrieval Augmented Generation (RAG) は、分散知識を欠くモデルによく用いられる手法である。
本稿では,RAGシステムのエンドツーエンドの間接的なプロンプト操作に対する安全性について検討する。
論文 参考訳(メタデータ) (2024-08-09T12:26:05Z) - Black-Box Opinion Manipulation Attacks to Retrieval-Augmented Generation of Large Language Models [21.01313168005792]
我々は、意見操作のためのブラックボックス攻撃に直面した場合、検索強化生成(RAG)モデルの脆弱性を明らかにする。
このような攻撃がユーザの認知と意思決定に与える影響について検討する。
論文 参考訳(メタデータ) (2024-07-18T17:55:55Z) - Revisiting Backdoor Attacks against Large Vision-Language Models from Domain Shift [104.76588209308666]
本稿では,LVLMの学習訓練におけるバックドア攻撃について検討する。
我々は,攻撃の堅牢性を評価するために,新たな評価次元,バックドア領域の一般化を導入する。
本稿では,ドメイン非依存的トリガを臨界領域に注入するマルチモーダルアトリビューションバックドアアタック(MABA)を提案する。
論文 参考訳(メタデータ) (2024-06-27T02:31:03Z) - PoisonedRAG: Knowledge Corruption Attacks to Retrieval-Augmented Generation of Large Language Models [45.409248316497674]
大規模言語モデル(LLM)は、その例外的な生成能力により、顕著な成功を収めた。
Retrieval-Augmented Generation (RAG)は、これらの制限を緩和するための最先端技術である。
RAGシステムにおける知識データベースは,新たな,実用的な攻撃面を導入している。
この攻撃面に基づいて,RAGに対する最初の知識汚職攻撃であるPoisonedRAGを提案する。
論文 参考訳(メタデータ) (2024-02-12T18:28:36Z) - Benchmarking Large Language Models in Retrieval-Augmented Generation [53.504471079548]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。
我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。
RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文 参考訳(メタデータ) (2023-09-04T08:28:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。