Fugu-MT 論文翻訳(概要): FlippedRAG: Black-Box Opinion Manipulation Adversarial Attacks to Retrieval-Augmented Generation Models

論文の概要: FlippedRAG: Black-Box Opinion Manipulation Adversarial Attacks to Retrieval-Augmented Generation Models

arxiv url: http://arxiv.org/abs/2501.02968v3
Date: Tue, 13 May 2025 02:16:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-14 16:45:08.778594
Title: FlippedRAG: Black-Box Opinion Manipulation Adversarial Attacks to Retrieval-Augmented Generation Models
Title（参考訳）: FlippedRAG: 検索型生成モデルに対するブラックボックスオピニオン操作対応攻撃
Authors: Zhuo Chen, Jiawei Liu, Yuyang Gong, Miaokun Chen, Haotan Liu, Qikai Cheng, Fan Zhang, Wei Lu, Xiaozhong Liu, Xiaofeng Wang,
Abstract要約: 我々は、ブラックボックスRAGシステムに対するトランスファーベースの敵攻撃であるFlippedRAGを提案する。 FlippedRAGは、RAG生成反応の意見において平均50%の方向シフトを達成する。これらの結果は、RAGシステムのセキュリティと信頼性を確保するために革新的な防衛ソリューションを開発する緊急の必要性を浮き彫りにしている。
参考スコア（独自算出の注目度）: 22.35026334463735
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Retrieval-Augmented Generation (RAG) enriches LLMs by dynamically retrieving external knowledge, reducing hallucinations and satisfying real-time information needs. While existing research mainly targets RAG's performance and efficiency, emerging studies highlight critical security concerns. Yet, current adversarial approaches remain limited, mostly addressing white-box scenarios or heuristic black-box attacks without fully investigating vulnerabilities in the retrieval phase. Additionally, prior works mainly focus on factoid QA tasks, their attacks lack complexity and can be easily corrected by advanced LLMs. In this paper, we investigate a more realistic and critical threat scenario: adversarial attacks intended for opinion manipulation against black-box RAG models, particularly on controversial topics. Specifically, we propose FlippedRAG, a transfer-based adversarial attack against black-box RAG systems. We first demonstrate that the underlying retriever of a black-box RAG system can be reverse-engineered, enabling us to train a surrogate retriever. Leveraging the surrogate retriever, we further craft target poisoning triggers, altering vary few documents to effectively manipulate both retrieval and subsequent generation. Extensive empirical results show that FlippedRAG substantially outperforms baseline methods, improving the average attack success rate by 16.7%. FlippedRAG achieves on average a 50% directional shift in the opinion polarity of RAG-generated responses, ultimately causing a notable 20% shift in user cognition. Furthermore, we evaluate the performance of several potential defensive measures, concluding that existing mitigation strategies remain insufficient against such sophisticated manipulation attacks. These results highlight an urgent need for developing innovative defensive solutions to ensure the security and trustworthiness of RAG systems.
Abstract（参考訳）: Retrieval-Augmented Generation (RAG)は、外部知識を動的に取得し、幻覚を減らし、リアルタイムな情報ニーズを満たすことでLLMを豊かにする。既存の研究は主にRAGの性能と効率を目標としているが、新たな研究は重要なセキュリティ上の懸念を浮き彫りにしている。しかし、現在の敵のアプローチは限定的であり、主に検索フェーズの脆弱性を完全に調査することなく、ホワイトボックスのシナリオやヒューリスティックなブラックボックス攻撃に対処している。さらに、以前の作業は主にファクトイドなQAタスクに焦点を当てており、攻撃には複雑さが欠けており、高度なLLMによって容易に修正できる。本稿では,ブラックボックスRAGモデルに対する意見操作を目的とした敵攻撃,特に議論の的となっている話題について,より現実的で批判的な脅威シナリオについて検討する。具体的には、ブラックボックスRAGシステムに対するトランスファーベースの敵攻撃であるFlippedRAGを提案する。まず、ブラックボックスRAGシステムの基盤となるレトリバーをリバースエンジニアリングできることを示し、サロゲートレトリバーのトレーニングを可能にした。また,サロゲートレトリバーの活用により,ターゲットの毒殺トリガーをさらに作り出し,検索と生成の両方を効果的に操作するために,文書の多様さを変化させる。大規模な実験の結果、FlippedRAGはベースライン法を大幅に上回り、平均攻撃成功率を16.7%向上させた。 FlippedRAGは、RAG生成応答の意見極性において平均50%の方向転換を達成し、最終的にはユーザの認知に20%の顕著な変化をもたらす。さらに、このような高度な操作攻撃に対して、既存の緩和策が不十分であるとして、いくつかの潜在的な防御策の性能を評価する。これらの結果は、RAGシステムのセキュリティと信頼性を確保するために革新的な防衛ソリューションを開発する緊急の必要性を浮き彫りにしている。

関連論文リスト

Token-Level Precise Attack on RAG: Searching for the Best Alternatives to Mislead Generation [7.441679541836913]
Token-level Precise Attack on the RAG (TPARAG) は、ホワイトボックスとブラックボックスの両方のRAGシステムをターゲットにした新しいフレームワークである。 TPARAGは、検索ステージとエンド・ツー・エンド・アタックの有効性において、従来のアプローチを一貫して上回っている。
論文参考訳（メタデータ） (2025-08-05T05:44:19Z)
The Silent Saboteur: Imperceptible Adversarial Attacks against Black-Box Retrieval-Augmented Generation Systems [101.68501850486179]
本稿では,RAGシステムに対する敵攻撃について検討し,その脆弱性を同定する。このタスクは、ターゲット文書を検索する非知覚的な摂動を見つけることを目的としており、もともとはトップ$k$の候補セットから除外されていた。本稿では、攻撃者とターゲットRAG間の相互作用を追跡する強化学習ベースのフレームワークであるReGENTを提案する。
論文参考訳（メタデータ） (2025-05-24T08:19:25Z)
Benchmarking Poisoning Attacks against Retrieval-Augmented Generation [12.573766276297441]
Retrieval-Augmented Generation (RAG) は、推論中に外部知識を取り入れることで、大規模言語モデルにおける幻覚の緩和に有効であることが証明されている。我々は、RAGに対する中毒攻撃を評価するための、最初の包括的なベンチマークフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-24T06:17:59Z)
PR-Attack: Coordinated Prompt-RAG Attacks on Retrieval-Augmented Generation in Large Language Models via Bilevel Optimization [13.751251342738225]
大規模言語モデル(LLM)は、幅広いアプリケーションで顕著な性能を示している。それらはまた、時代遅れの知識や幻覚への感受性のような固有の制限も示している。近年の取り組みはRAGベースのLLMのセキュリティに重点を置いているが、既存の攻撃方法は3つの重大な課題に直面している。本稿では,少数の有毒テキストを知識データベースに導入する新しい最適化型攻撃であるPrompt-RAGアタック(PR-アタック)を提案する。
論文参考訳（メタデータ） (2025-04-10T13:09:50Z)
Poisoned-MRAG: Knowledge Poisoning Attacks to Multimodal Retrieval Augmented Generation [71.32665836294103]
マルチモーダル検索強化世代(RAG)は視覚言語モデル(VLM)の視覚的推論能力を向上させる本研究では,マルチモーダルRAGシステムに対する最初の知識中毒攻撃であるtextitPoisoned-MRAGを紹介する。
論文参考訳（メタデータ） (2025-03-08T15:46:38Z)
MM-PoisonRAG: Disrupting Multimodal RAG with Local and Global Poisoning Attacks [109.53357276796655]
Retrieval Augmented Generation (RAG) を備えたマルチモーダル大言語モデル(MLLM) RAGはクエリ関連外部知識の応答を基盤としてMLLMを強化する。この依存は、知識中毒攻撃(英語版)という、危険だが未発見の安全リスクを生じさせる。本稿では,2つの攻撃戦略を持つ新しい知識中毒攻撃フレームワークMM-PoisonRAGを提案する。
論文参考訳（メタデータ） (2025-02-25T04:23:59Z)
REINFORCE Adversarial Attacks on Large Language Models: An Adaptive, Distributional, and Semantic Objective [57.57786477441956]
応答の個体群に対する適応的・意味的最適化問題を提案する。我々の目標は、Llama3の攻撃成功率(ASR)を2倍にし、サーキットブレーカー防御でASRを2%から50%に向上させることである。
論文参考訳（メタデータ） (2025-02-24T15:34:48Z)
Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。有害なクエリを良心的な推論タスクに再構成する。 RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文参考訳（メタデータ） (2025-02-16T09:27:44Z)
Retrievals Can Be Detrimental: A Contrastive Backdoor Attack Paradigm on Retrieval-Augmented Diffusion Models [37.66349948811172]
拡散モデル (DM) は近年, 顕著な生成能力を示した。近年の研究では、高度な検索・拡張生成(RAG)技術によってDMが強化されている。 RAGは、モデルパラメータを著しく低減しつつ、DMの生成と一般化能力を向上させる。大きな成功にもかかわらず、RAGはさらなる調査を保証できる新しいセキュリティ問題を導入するかもしれない。
論文参考訳（メタデータ） (2025-01-23T02:42:28Z)
Towards More Robust Retrieval-Augmented Generation: Evaluating RAG Under Adversarial Poisoning Attacks [45.07581174558107]
Retrieval-Augmented Generation (RAG) システムは幻覚を緩和するための有望な解決策として登場した。 RAGシステムは、検索コーパスに注入された悪意のある通路が、モデルに誤った結果をもたらす可能性がある、敵の毒殺攻撃に対して脆弱である。本稿では、RAGシステムがこのような攻撃下でどのように振る舞うか、その堅牢性がどのように改善されるかについて、厳密に制御された実証研究を示す。
論文参考訳（メタデータ） (2024-12-21T17:31:52Z)
Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文参考訳（メタデータ） (2024-09-24T14:52:14Z)
Rag and Roll: An End-to-End Evaluation of Indirect Prompt Manipulations in LLM-based Application Frameworks [12.061098193438022]
Retrieval Augmented Generation (RAG) は、分散知識を欠くモデルによく用いられる手法である。本稿では,RAGシステムのエンドツーエンドの間接的なプロンプト操作に対する安全性について検討する。
論文参考訳（メタデータ） (2024-08-09T12:26:05Z)
Black-Box Opinion Manipulation Attacks to Retrieval-Augmented Generation of Large Language Models [21.01313168005792]
我々は、意見操作のためのブラックボックス攻撃に直面した場合、検索強化生成(RAG)モデルの脆弱性を明らかにする。このような攻撃がユーザの認知と意思決定に与える影響について検討する。
論文参考訳（メタデータ） (2024-07-18T17:55:55Z)
Revisiting Backdoor Attacks against Large Vision-Language Models from Domain Shift [104.76588209308666]
本稿では,LVLMの学習訓練におけるバックドア攻撃について検討する。我々は,攻撃の堅牢性を評価するために,新たな評価次元,バックドア領域の一般化を導入する。本稿では,ドメイン非依存的トリガを臨界領域に注入するマルチモーダルアトリビューションバックドアアタック(MABA)を提案する。
論文参考訳（メタデータ） (2024-06-27T02:31:03Z)
PoisonedRAG: Knowledge Corruption Attacks to Retrieval-Augmented Generation of Large Language Models [45.409248316497674]
大規模言語モデル(LLM)は、その例外的な生成能力により、顕著な成功を収めた。 Retrieval-Augmented Generation (RAG)は、これらの制限を緩和するための最先端技術である。 RAGシステムにおける知識データベースは,新たな,実用的な攻撃面を導入している。この攻撃面に基づいて,RAGに対する最初の知識汚職攻撃であるPoisonedRAGを提案する。
論文参考訳（メタデータ） (2024-02-12T18:28:36Z)
Benchmarking Large Language Models in Retrieval-Augmented Generation [53.504471079548]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。 RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文参考訳（メタデータ） (2023-09-04T08:28:44Z)
Guidance Through Surrogate: Towards a Generic Diagnostic Attack [101.36906370355435]
我々は、攻撃最適化中に局所最小限を避けるための誘導機構を開発し、G-PGAと呼ばれる新たな攻撃に繋がる。修正された攻撃では、ランダムに再起動したり、多数の攻撃を繰り返したり、最適なステップサイズを検索したりする必要がありません。効果的な攻撃以上に、G-PGAは敵防御における勾配マスキングによる解離性堅牢性を明らかにするための診断ツールとして用いられる。
論文参考訳（メタデータ） (2022-12-30T18:45:23Z)
Guided Adversarial Attack for Evaluating and Enhancing Adversarial Defenses [59.58128343334556]
我々は、より適切な勾配方向を見つけ、攻撃効果を高め、より効率的な対人訓練をもたらす標準損失に緩和項を導入する。本稿では, クリーン画像の関数マッピングを用いて, 敵生成を誘導するGAMA ( Guided Adversarial Margin Attack) を提案する。また,一段防衛における最先端性能を実現するためのGAT ( Guided Adversarial Training) を提案する。
論文参考訳（メタデータ） (2020-11-30T16:39:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。