Fugu-MT 論文翻訳(概要): BadRAG: Identifying Vulnerabilities in Retrieval Augmented Generation of Large Language Models

論文の概要: BadRAG: Identifying Vulnerabilities in Retrieval Augmented Generation of Large Language Models

arxiv url: http://arxiv.org/abs/2406.00083v1
Date: Mon, 3 Jun 2024 02:25:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-06 08:43:16.474744
Title: BadRAG: Identifying Vulnerabilities in Retrieval Augmented Generation of Large Language Models
Title（参考訳）: BadRAG: 大規模言語モデルの検索拡張生成における脆弱性の特定
Authors: Jiaqi Xue, Mengxin Zheng, Yebowen Hu, Fei Liu, Xun Chen, Qian Lou,
Abstract要約: 大規模言語モデル(LLM)は時代遅れの情報と誤ったデータを生成する傾向によって制約される。 Retrieval-Augmented Generation (RAG) は、検索手法の強みと生成モデルを組み合わせることで、これらの制限に対処する。 RAG は LLM に対する新たな攻撃面を導入している。特に RAG データベースは Web などの公開データからしばしば引き出されるためである。
参考スコア（独自算出の注目度）: 18.107026036897132
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large Language Models (LLMs) are constrained by outdated information and a tendency to generate incorrect data, commonly referred to as "hallucinations." Retrieval-Augmented Generation (RAG) addresses these limitations by combining the strengths of retrieval-based methods and generative models. This approach involves retrieving relevant information from a large, up-to-date dataset and using it to enhance the generation process, leading to more accurate and contextually appropriate responses. Despite its benefits, RAG introduces a new attack surface for LLMs, particularly because RAG databases are often sourced from public data, such as the web. In this paper, we propose \TrojRAG{} to identify the vulnerabilities and attacks on retrieval parts (RAG database) and their indirect attacks on generative parts (LLMs). Specifically, we identify that poisoning several customized content passages could achieve a retrieval backdoor, where the retrieval works well for clean queries but always returns customized poisoned adversarial queries. Triggers and poisoned passages can be highly customized to implement various attacks. For example, a trigger could be a semantic group like "The Republican Party, Donald Trump, etc." Adversarial passages can be tailored to different contents, not only linked to the triggers but also used to indirectly attack generative LLMs without modifying them. These attacks can include denial-of-service attacks on RAG and semantic steering attacks on LLM generations conditioned by the triggers. Our experiments demonstrate that by just poisoning 10 adversarial passages can induce 98.2\% success rate to retrieve the adversarial passages. Then, these passages can increase the reject ratio of RAG-based GPT-4 from 0.01\% to 74.6\% or increase the rate of negative responses from 0.22\% to 72\% for targeted queries.
Abstract（参考訳）: LLM(Large Language Models)は、古い情報や不正なデータを生成する傾向によって制約される。 Retrieval-Augmented Generation (RAG) は、検索手法の強みと生成モデルを組み合わせることで、これらの制限に対処する。このアプローチでは、大規模で最新のデータセットから関連する情報を取得し、生成プロセスを強化するためにそれを使用することで、より正確でコンテキスト的に適切なレスポンスが得られます。特にRAGデータベースは、Webなどの公開データからしばしばソースされるためである。本稿では,検索部(RAGデータベース)に対する脆弱性と攻撃とその生成部(LLM)に対する間接攻撃を特定するために,TrojRAG{}を提案する。具体的には、いくつかのカスタマイズされたコンテンツパスを汚染すると、検索バックドアが得られ、検索はクリーンなクエリではうまく機能するが、常にカスタマイズされた有害な逆行クエリを返す。トリガーと毒入りの通路は、様々な攻撃を実装するために高度にカスタマイズできる。例えば、トリガーは「共和党、ドナルド・トランプなど」のような意味的なグループかもしれない。逆行路は異なる内容に合わせて調整することができ、トリガーとリンクするだけでなく、それを変更することなく間接的にジェネリックLSMを攻撃するためにも用いられる。これらの攻撃には、RAGに対するサービス拒否攻撃や、トリガーによって条件付けられたLLM世代に対するセマンティックステアリング攻撃が含まれる。実験の結果,10個の逆行路を毒殺しただけで98.2 %の成功率を誘導し,逆行路を回収できることがわかった。これにより、RAGベースの GPT-4 の拒絶比を 0.01\% から 74.6\% に引き上げるか、ターゲットクエリに対して 0.22\% から 72\% に増加させることができる。

関連論文リスト

RAG-Pull: Imperceptible Attacks on RAG Systems for Code Generation [3.676794958453962]
我々は,クエリや外部コードリポジトリに隠された文字を挿入する新たなブラックボックス攻撃であるRAG-Pullを開発する。クエリとコードの摂動だけでは、検索を攻撃者が制御するスニペットにシフトできる一方で、クエリとターゲットの組み合わせによる摂動は、ほぼ完璧に成功する。 RAG-Pullの最小限の摂動は、モデルの安全性のアライメントを変更し、安全でないコードに対する嗜好を増大させ、LCMに対する新たな攻撃のクラスを開放する。
論文参考訳（メタデータ） (2025-10-13T09:27:26Z)
Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文参考訳（メタデータ） (2025-05-23T08:13:59Z)
No Query, No Access [50.18709429731724]
被害者のテキストのみを使用して動作する textbfVictim Data-based Adrial Attack (VDBA) を導入する。被害者モデルへのアクセスを防止するため、公開されている事前トレーニングモデルとクラスタリングメソッドを備えたシャドウデータセットを作成します。 EmotionとSST5データセットの実験によると、VDBAは最先端の手法より優れており、ASRの改善は52.08%である。
論文参考訳（メタデータ） (2025-05-12T06:19:59Z)
POISONCRAFT: Practical Poisoning of Retrieval-Augmented Generation for Large Language Models [4.620537391830117]
大型言語モデル(LLM)は幻覚の影響を受けやすいため、誤った結果や誤解を招く可能性がある。 Retrieval-augmented Generation (RAG) は、外部知識源を活用することで幻覚を緩和する有望なアプローチである。本稿では,POISONCRAFTと呼ばれるRAGシステムに対する中毒攻撃について検討する。
論文参考訳（メタデータ） (2025-05-10T09:36:28Z)
Defending against Indirect Prompt Injection by Instruction Detection [81.98614607987793]
本稿では, 外部データを入力として取り込んで, 前方および後方の伝搬中におけるLCMの動作状態を利用して, 潜在的なIPI攻撃を検出する手法を提案する。提案手法は,ドメイン内設定で99.60%,ドメイン外設定で96.90%,攻撃成功率でBIPIAベンチマークで0.12%に低下する。
論文参考訳（メタデータ） (2025-05-08T13:04:45Z)
MM-PoisonRAG: Disrupting Multimodal RAG with Local and Global Poisoning Attacks [109.53357276796655]
Retrieval Augmented Generation (RAG) を備えたマルチモーダル大言語モデル(MLLM) RAGはクエリ関連外部知識の応答を基盤としてMLLMを強化する。この依存は、知識中毒攻撃(英語版)という、危険だが未発見の安全リスクを生じさせる。本稿では,2つの攻撃戦略を持つ新しい知識中毒攻撃フレームワークMM-PoisonRAGを提案する。
論文参考訳（メタデータ） (2025-02-25T04:23:59Z)
Riddle Me This! Stealthy Membership Inference for Retrieval-Augmented Generation [18.098228823748617]
本稿では,RAGデータストア内の文書を対象としたメンバシップ推論手法であるInterrogation Attack (IA)を提案する。ステルス性を維持しながら、たった30クエリで推論に成功したことを実証します。我々は,様々なRAG構成に対する事前推論攻撃に対して,TPR@1%FPRの2倍の改善が観察された。
論文参考訳（メタデータ） (2025-02-01T04:01:18Z)
RevPRAG: Revealing Poisoning Attacks in Retrieval-Augmented Generation through LLM Activation Analysis [3.706288937295861]
RevPRAGは、LLMの活性化を利用した、柔軟で自動化された検出パイプラインである。複数のベンチマークデータセットとRAGアーキテクチャによる結果から,提案手法は真正の98%,偽正の1%に近い正の98%を達成できた。
論文参考訳（メタデータ） (2024-11-28T06:29:46Z)
Data Extraction Attacks in Retrieval-Augmented Generation via Backdoors [15.861833242429228]
本稿では,RAG(Retrieval-Augmented Generation)システムの知識データベースを対象としたデータ抽出攻撃について検討する。この脆弱性を明らかにするために, LLM内にバックドアを作成するために, 微調整期間中に少量の有毒データを注入するバックドアRAGを提案する。
論文参考訳（メタデータ） (2024-11-03T22:27:40Z)
Backdoored Retrievers for Prompt Injection Attacks on Retrieval Augmented Generation of Large Language Models [0.0]
Retrieval Augmented Generation (RAG)は、大規模言語モデルと最新の情報検索を組み合わせることでこの問題に対処する。本稿では、誤報以外の有害な目的に焦点をあて、RAGに対する即時注射攻撃について検討する。我々は,既存のコーパス中毒技術を構築し,高密度レトリバー部品の微調整を目的とした新しいバックドアアタックを提案する。
論文参考訳（メタデータ） (2024-10-18T14:02:34Z)
Rag and Roll: An End-to-End Evaluation of Indirect Prompt Manipulations in LLM-based Application Frameworks [12.061098193438022]
Retrieval Augmented Generation (RAG) は、分散知識を欠くモデルによく用いられる手法である。本稿では,RAGシステムのエンドツーエンドの間接的なプロンプト操作に対する安全性について検討する。
論文参考訳（メタデータ） (2024-08-09T12:26:05Z)
AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文参考訳（メタデータ） (2024-07-17T17:59:47Z)
Corpus Poisoning via Approximate Greedy Gradient Descent [48.5847914481222]
本稿では,HotFlip法をベースとした高密度検索システムに対する新たな攻撃手法として,近似グレディ・グラディエント・Descentを提案する。提案手法は,複数のデータセットと複数のレトリバーを用いて高い攻撃成功率を達成し,未知のクエリや新しいドメインに一般化可能であることを示す。
論文参考訳（メタデータ） (2024-06-07T17:02:35Z)
Follow My Instruction and Spill the Beans: Scalable Data Extraction from Retrieval-Augmented Generation Systems [22.142588104314175]
Retrieval-In-Context RAG Language Models (LMs) におけるデータストアリークのリスクについて検討する。敵はLMの命令追従機能を利用してデータストアからテキストデータを簡単に抽出できることを示す。ランダムに選択された25個のGPTに対して、100%の成功率でデータストアリークを引き起こす攻撃を設計する。
論文参考訳（メタデータ） (2024-02-27T19:08:05Z)
Backdoor Attacks on Dense Retrieval via Public and Unintentional Triggers [46.19574403393449]
本稿では,攻撃者が検索システムを誤認して攻撃者の特定内容を検索する新たな攻撃シナリオについて検討する。これらのコンテンツは、攻撃者によって検索コーパスに注入され、ヘイトスピーチやスパムのような有害なテキストを含むことができる。モデル重みに頼り、顕著で不自然な出力を生成する従来の手法とは異なり、文法エラーによって引き起こされる隠れたバックドア攻撃を提案する。
論文参考訳（メタデータ） (2024-02-21T05:03:07Z)
Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game [86.66627242073724]
本稿では,126,000以上のプロンプトインジェクションと46,000以上のプロンプトベースのプロンプトインジェクションに対する「防御」のデータセットを提案する。我々の知る限り、これは現在、命令追従 LLM に対する人間生成の敵例の最大のデータセットである。また、データセットを使用して、2種類のプロンプトインジェクションに対する耐性のベンチマークを作成し、これをプロンプト抽出とプロンプトハイジャックと呼ぶ。
論文参考訳（メタデータ） (2023-11-02T06:13:36Z)
Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文参考訳（メタデータ） (2023-10-17T18:18:32Z)
Generalizable Black-Box Adversarial Attack with Meta Learning [54.196613395045595]
ブラックボックス攻撃では、ターゲットモデルのパラメータが不明であり、攻撃者はクエリのフィードバックに基づいて、クエリの予算に基づいて摂動を成功させることを目指している。本稿では,実例レベルの逆転可能性という,過去の攻撃に対するフィードバック情報を活用することを提案する。この2種類の逆転送性を持つフレームワークは,市販のクエリベースのアタック手法と自然に組み合わせて性能を向上させることができる。
論文参考訳（メタデータ） (2023-01-01T07:24:12Z)
On Trace of PGD-Like Adversarial Attacks [77.75152218980605]
敵対的攻撃は、ディープラーニングアプリケーションに対する安全性とセキュリティ上の懸念を引き起こす。モデルの勾配一貫性を反映した適応応答特性(ARC)特性を構築する。私たちの方法は直感的で、軽量で、非侵襲的で、データ不要です。
論文参考訳（メタデータ） (2022-05-19T14:26:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。