論文の概要: Black-Box Opinion Manipulation Attacks to Retrieval-Augmented Generation of Large Language Models
- arxiv url: http://arxiv.org/abs/2407.13757v1
- Date: Thu, 18 Jul 2024 17:55:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 14:12:02.273736
- Title: Black-Box Opinion Manipulation Attacks to Retrieval-Augmented Generation of Large Language Models
- Title(参考訳): 大規模言語モデル検索のためのブラックボックスオピニオン操作攻撃
- Authors: Zhuo Chen, Jiawei Liu, Haotan Liu, Qikai Cheng, Fan Zhang, Wei Lu, Xiaozhong Liu,
- Abstract要約: 我々は、意見操作のためのブラックボックス攻撃に直面した場合、検索強化生成(RAG)モデルの脆弱性を明らかにする。
このような攻撃がユーザの認知と意思決定に与える影響について検討する。
- 参考スコア(独自算出の注目度): 21.01313168005792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) is applied to solve hallucination problems and real-time constraints of large language models, but it also induces vulnerabilities against retrieval corruption attacks. Existing research mainly explores the unreliability of RAG in white-box and closed-domain QA tasks. In this paper, we aim to reveal the vulnerabilities of Retrieval-Enhanced Generative (RAG) models when faced with black-box attacks for opinion manipulation. We explore the impact of such attacks on user cognition and decision-making, providing new insight to enhance the reliability and security of RAG models. We manipulate the ranking results of the retrieval model in RAG with instruction and use these results as data to train a surrogate model. By employing adversarial retrieval attack methods to the surrogate model, black-box transfer attacks on RAG are further realized. Experiments conducted on opinion datasets across multiple topics show that the proposed attack strategy can significantly alter the opinion polarity of the content generated by RAG. This demonstrates the model's vulnerability and, more importantly, reveals the potential negative impact on user cognition and decision-making, making it easier to mislead users into accepting incorrect or biased information.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、大規模な言語モデルの幻覚的問題やリアルタイムな制約を解決するために応用されるが、また、悪用に対する脆弱性も引き起こす。
既存の研究は主に、ホワイトボックスおよびクローズドドメインQAタスクにおけるRAGの信頼性の欠如について調査している。
本稿では、意見操作のためのブラックボックス攻撃に直面した場合、検索強化生成モデル(RAG)の脆弱性を明らかにすることを目的とする。
本稿では,RAGモデルの信頼性と安全性を高めるための新たな洞察を提供するとともに,ユーザ認知と意思決定に対する攻撃の影響について検討する。
我々は、RAGにおける検索モデルのランキング結果を命令で操作し、これらの結果をデータとして使用して代理モデルのトレーニングを行う。
代理モデルに敵対的検索攻撃手法を適用することにより、RAGに対するブラックボックス転送攻撃がさらに実現される。
複数のトピックにまたがる意見データセットを用いて行った実験により、RAGが生成したコンテンツの意見の極性を大きく変えることができることが示された。
これはモデルの脆弱性を示し、さらに重要なのは、ユーザの認識と意思決定に対する潜在的なネガティブな影響を明らかにします。
関連論文リスト
- Chain of Attack: On the Robustness of Vision-Language Models Against Transfer-Based Adversarial Attacks [34.40254709148148]
事前学習された視覚言語モデル(VLM)は、画像および自然言語理解において顕著な性能を示した。
彼らの潜在的な安全性と堅牢性の問題は、敵がシステムを回避し、悪意のある攻撃を通じて有害なコンテンツを生成することを懸念する。
本稿では,マルチモーダルなセマンティック・アップデートに基づいて,敵対的事例の生成を反復的に促進するアタック・チェーン(CoA)を提案する。
論文 参考訳(メタデータ) (2024-11-24T05:28:07Z) - Toward Robust RALMs: Revealing the Impact of Imperfect Retrieval on Retrieval-Augmented Language Models [5.10832476049103]
提案手法では,ALMを実世界の実例と混同しうるシナリオを3つ同定する。
我々は,新たな敵攻撃法,生成モデルに基づくADVersarial attack (GenADV) と,付加文書(RAD)に基づく新しい計量ロバストネスを提案する。
以上の結果から,ALMは文書集合の未解決性や矛盾を識別できないことが多く,幻覚につながることが多かった。
論文 参考訳(メタデータ) (2024-10-19T13:40:33Z) - Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。
本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。
我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文 参考訳(メタデータ) (2024-09-24T14:52:14Z) - "Glue pizza and eat rocks" -- Exploiting Vulnerabilities in Retrieval-Augmented Generative Models [74.05368440735468]
Retrieval-Augmented Generative (RAG)モデルにより大規模言語モデル(LLM)が強化される
本稿では,これらの知識基盤の開放性を敵が活用できるセキュリティ上の脅威を示す。
論文 参考訳(メタデータ) (2024-06-26T05:36:23Z) - Not All Contexts Are Equal: Teaching LLMs Credibility-aware Generation [47.42366169887162]
Credibility-Aware Generation (CAG) は、信頼性に基づいて情報を識別・処理する能力を備えたモデルを提供することを目的としている。
提案モデルは,生成に対する信頼性を効果的に理解し活用し,検索強化により他のモデルよりも大幅に優れ,ノイズの多い文書による破壊に対するレジリエンスを示す。
論文 参考訳(メタデータ) (2024-04-10T07:56:26Z) - Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity [80.16488817177182]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - JAB: Joint Adversarial Prompting and Belief Augmentation [81.39548637776365]
我々は,ブラックボックスターゲットモデルの強靭性を,敵対的プロンプトと信念の増大を通じて探索し,改善する共同枠組みを導入する。
このフレームワークは、自動的なレッド・チームリング手法を用いてターゲットモデルを探索し、信念強化器を用いて目標モデルの命令を生成し、敵のプローブに対するロバスト性を向上させる。
論文 参考訳(メタデータ) (2023-11-16T00:35:54Z) - Boosting Black-Box Attack with Partially Transferred Conditional
Adversarial Distribution [83.02632136860976]
深層ニューラルネットワーク(DNN)に対するブラックボックス攻撃の研究
我々は, 代理バイアスに対して頑健な, 対向移動可能性の新たなメカニズムを開発する。
ベンチマークデータセットの実験と実世界のAPIに対する攻撃は、提案手法の優れた攻撃性能を示す。
論文 参考訳(メタデータ) (2020-06-15T16:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。