論文の概要: Black-Box Opinion Manipulation Attacks to Retrieval-Augmented Generation of Large Language Models
- arxiv url: http://arxiv.org/abs/2407.13757v1
- Date: Thu, 18 Jul 2024 17:55:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 14:12:02.273736
- Title: Black-Box Opinion Manipulation Attacks to Retrieval-Augmented Generation of Large Language Models
- Title(参考訳): 大規模言語モデル検索のためのブラックボックスオピニオン操作攻撃
- Authors: Zhuo Chen, Jiawei Liu, Haotan Liu, Qikai Cheng, Fan Zhang, Wei Lu, Xiaozhong Liu,
- Abstract要約: 我々は、意見操作のためのブラックボックス攻撃に直面した場合、検索強化生成(RAG)モデルの脆弱性を明らかにする。
このような攻撃がユーザの認知と意思決定に与える影響について検討する。
- 参考スコア(独自算出の注目度): 21.01313168005792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) is applied to solve hallucination problems and real-time constraints of large language models, but it also induces vulnerabilities against retrieval corruption attacks. Existing research mainly explores the unreliability of RAG in white-box and closed-domain QA tasks. In this paper, we aim to reveal the vulnerabilities of Retrieval-Enhanced Generative (RAG) models when faced with black-box attacks for opinion manipulation. We explore the impact of such attacks on user cognition and decision-making, providing new insight to enhance the reliability and security of RAG models. We manipulate the ranking results of the retrieval model in RAG with instruction and use these results as data to train a surrogate model. By employing adversarial retrieval attack methods to the surrogate model, black-box transfer attacks on RAG are further realized. Experiments conducted on opinion datasets across multiple topics show that the proposed attack strategy can significantly alter the opinion polarity of the content generated by RAG. This demonstrates the model's vulnerability and, more importantly, reveals the potential negative impact on user cognition and decision-making, making it easier to mislead users into accepting incorrect or biased information.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、大規模な言語モデルの幻覚的問題やリアルタイムな制約を解決するために応用されるが、また、悪用に対する脆弱性も引き起こす。
既存の研究は主に、ホワイトボックスおよびクローズドドメインQAタスクにおけるRAGの信頼性の欠如について調査している。
本稿では、意見操作のためのブラックボックス攻撃に直面した場合、検索強化生成モデル(RAG)の脆弱性を明らかにすることを目的とする。
本稿では,RAGモデルの信頼性と安全性を高めるための新たな洞察を提供するとともに,ユーザ認知と意思決定に対する攻撃の影響について検討する。
我々は、RAGにおける検索モデルのランキング結果を命令で操作し、これらの結果をデータとして使用して代理モデルのトレーニングを行う。
代理モデルに敵対的検索攻撃手法を適用することにより、RAGに対するブラックボックス転送攻撃がさらに実現される。
複数のトピックにまたがる意見データセットを用いて行った実験により、RAGが生成したコンテンツの意見の極性を大きく変えることができることが示された。
これはモデルの脆弱性を示し、さらに重要なのは、ユーザの認識と意思決定に対する潜在的なネガティブな影響を明らかにします。
関連論文リスト
- "Glue pizza and eat rocks" -- Exploiting Vulnerabilities in Retrieval-Augmented Generative Models [74.05368440735468]
Retrieval-Augmented Generative (RAG)モデルにより大規模言語モデル(LLM)が強化される
本稿では,これらの知識基盤の開放性を敵が活用できるセキュリティ上の脅威を示す。
論文 参考訳(メタデータ) (2024-06-26T05:36:23Z) - Not All Contexts Are Equal: Teaching LLMs Credibility-aware Generation [47.42366169887162]
Credibility-Aware Generation (CAG) は、信頼性に基づいて情報を識別・処理する能力を備えたモデルを提供することを目的としている。
提案モデルは,生成に対する信頼性を効果的に理解し活用し,検索強化により他のモデルよりも大幅に優れ,ノイズの多い文書による破壊に対するレジリエンスを示す。
論文 参考訳(メタデータ) (2024-04-10T07:56:26Z) - MEAOD: Model Extraction Attack against Object Detectors [45.817537875368956]
モデル抽出攻撃は、攻撃者が被害者モデルに匹敵する機能を持つ代替モデルを複製することを可能にする。
本稿では,オブジェクト検出モデルに対するMEAODと呼ばれる効果的な攻撃手法を提案する。
10kのクエリ予算の所定の条件下で,抽出性能を70%以上達成する。
論文 参考訳(メタデータ) (2023-12-22T13:28:50Z) - Model Stealing Attack against Graph Classification with Authenticity,
Uncertainty and Diversity [85.1927483219819]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - JAB: Joint Adversarial Prompting and Belief Augmentation [81.39548637776365]
我々は,ブラックボックスターゲットモデルの強靭性を,敵対的プロンプトと信念の増大を通じて探索し,改善する共同枠組みを導入する。
このフレームワークは、自動的なレッド・チームリング手法を用いてターゲットモデルを探索し、信念強化器を用いて目標モデルの命令を生成し、敵のプローブに対するロバスト性を向上させる。
論文 参考訳(メタデータ) (2023-11-16T00:35:54Z) - OMG-ATTACK: Self-Supervised On-Manifold Generation of Transferable
Evasion Attacks [17.584752814352502]
Evasion Attacks (EA) は、入力データを歪ませることで、トレーニングされたニューラルネットワークの堅牢性をテストするために使用される。
本稿では, 自己教師型, 計算的経済的な手法を用いて, 対逆例を生成する手法を提案する。
我々の実験は、この手法が様々なモデル、目に見えないデータカテゴリ、さらには防御されたモデルで有効であることを一貫して実証している。
論文 参考訳(メタデータ) (2023-10-05T17:34:47Z) - Generalizable Black-Box Adversarial Attack with Meta Learning [54.196613395045595]
ブラックボックス攻撃では、ターゲットモデルのパラメータが不明であり、攻撃者はクエリのフィードバックに基づいて、クエリの予算に基づいて摂動を成功させることを目指している。
本稿では,実例レベルの逆転可能性という,過去の攻撃に対するフィードバック情報を活用することを提案する。
この2種類の逆転送性を持つフレームワークは,市販のクエリベースのアタック手法と自然に組み合わせて性能を向上させることができる。
論文 参考訳(メタデータ) (2023-01-01T07:24:12Z) - Boosting Black-Box Attack with Partially Transferred Conditional
Adversarial Distribution [83.02632136860976]
深層ニューラルネットワーク(DNN)に対するブラックボックス攻撃の研究
我々は, 代理バイアスに対して頑健な, 対向移動可能性の新たなメカニズムを開発する。
ベンチマークデータセットの実験と実世界のAPIに対する攻撃は、提案手法の優れた攻撃性能を示す。
論文 参考訳(メタデータ) (2020-06-15T16:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。