論文の概要: Token-Level Precise Attack on RAG: Searching for the Best Alternatives to Mislead Generation
- arxiv url: http://arxiv.org/abs/2508.03110v1
- Date: Tue, 05 Aug 2025 05:44:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.801851
- Title: Token-Level Precise Attack on RAG: Searching for the Best Alternatives to Mislead Generation
- Title(参考訳): RAGに対するToken-Levelの精密攻撃 - ミススリード生成の最良の選択肢を探る
- Authors: Zizhong Li, Haopeng Zhang, Jiawei Zhang,
- Abstract要約: Token-level Precise Attack on the RAG (TPARAG) は、ホワイトボックスとブラックボックスの両方のRAGシステムをターゲットにした新しいフレームワークである。
TPARAGは、検索ステージとエンド・ツー・エンド・アタックの有効性において、従来のアプローチを一貫して上回っている。
- 参考スコア(独自算出の注目度): 7.441679541836913
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large language models (LLMs) have achieved remarkable success in providing trustworthy responses for knowledge-intensive tasks, they still face critical limitations such as hallucinations and outdated knowledge. To address these issues, the retrieval-augmented generation (RAG) framework enhances LLMs with access to external knowledge via a retriever, enabling more accurate and real-time outputs about the latest events. However, this integration brings new security vulnerabilities: the risk that malicious content in the external database can be retrieved and used to manipulate model outputs. Although prior work has explored attacks on RAG systems, existing approaches either rely heavily on access to the retriever or fail to jointly consider both retrieval and generation stages, limiting their effectiveness, particularly in black-box scenarios. To overcome these limitations, we propose Token-level Precise Attack on the RAG (TPARAG), a novel framework that targets both white-box and black-box RAG systems. TPARAG leverages a lightweight white-box LLM as an attacker to generate and iteratively optimize malicious passages at the token level, ensuring both retrievability and high attack success in generation. Extensive experiments on open-domain QA datasets demonstrate that TPARAG consistently outperforms previous approaches in retrieval-stage and end-to-end attack effectiveness. These results further reveal critical vulnerabilities in RAG pipelines and offer new insights into improving their robustness.
- Abstract(参考訳): 大規模言語モデル(LLM)は、知識集約的なタスクに対して信頼できる応答を提供することで、驚くべき成功を収めてきたが、幻覚や時代遅れの知識といった重要な制限に直面している。
これらの問題に対処するため、検索拡張生成(RAG)フレームワークは、レトリバーを介して外部知識にアクセスすることでLLMを強化し、最新のイベントに関するより正確でリアルタイムな出力を可能にする。
しかし、この統合は新たなセキュリティ上の脆弱性をもたらす。外部データベース内の悪意のあるコンテンツを検索し、モデル出力を操作するために使用することができるリスク。
以前の研究ではRAGシステムに対する攻撃を調査していたが、既存のアプローチはレトリバーへのアクセスに大きく依存するか、検索と生成の両方の段階を共同で検討せず、特にブラックボックスのシナリオでは有効性を制限している。
これらの制約を克服するために,白箱と黒箱のRAGシステムを対象とする新しいフレームワークであるTPARAG(Token-level Precise Attack on the RAG)を提案する。
TPARAGは、ライトウェイトなホワイトボックスLLMを攻撃者として利用し、トークンレベルで悪意のあるパスを生成し、反復的に最適化することで、生成における検索可能性と高い攻撃成功の両立を保証する。
オープンドメインのQAデータセットに対する大規模な実験により、TPARAGは検索ステージとエンドツーエンドの攻撃効率において、従来よりも一貫して優れていた。
これらの結果はさらにRAGパイプラインの重大な脆弱性を明らかにし、堅牢性を改善するための新たな洞察を提供する。
関連論文リスト
- CPA-RAG:Covert Poisoning Attacks on Retrieval-Augmented Generation in Large Language Models [15.349703228157479]
Retrieval-Augmented Generation (RAG)は、外部知識を取り入れた大規模言語モデル(LLM)を強化する。
既存のRAGシステムに対する中毒法には、一般化の欠如や、敵のテキストにおける流布の欠如など、制限がある。
CPA-RAGは,検索プロセスを操作することで,対象の回答を誘導するクエリ関連テキストを生成するブラックボックスの対向フレームワークである。
論文 参考訳(メタデータ) (2025-05-26T11:48:32Z) - The Silent Saboteur: Imperceptible Adversarial Attacks against Black-Box Retrieval-Augmented Generation Systems [101.68501850486179]
本稿では,RAGシステムに対する敵攻撃について検討し,その脆弱性を同定する。
このタスクは、ターゲット文書を検索する非知覚的な摂動を見つけることを目的としており、もともとはトップ$k$の候補セットから除外されていた。
本稿では、攻撃者とターゲットRAG間の相互作用を追跡する強化学習ベースのフレームワークであるReGENTを提案する。
論文 参考訳(メタデータ) (2025-05-24T08:19:25Z) - POISONCRAFT: Practical Poisoning of Retrieval-Augmented Generation for Large Language Models [4.620537391830117]
大型言語モデル(LLM)は幻覚の影響を受けやすいため、誤った結果や誤解を招く可能性がある。
Retrieval-augmented Generation (RAG) は、外部知識源を活用することで幻覚を緩和する有望なアプローチである。
本稿では,POISONCRAFTと呼ばれるRAGシステムに対する中毒攻撃について検討する。
論文 参考訳(メタデータ) (2025-05-10T09:36:28Z) - ELBA-Bench: An Efficient Learning Backdoor Attacks Benchmark for Large Language Models [55.93380086403591]
生成可能な大規模言語モデルは、バックドアアタックに対して脆弱である。
$textitELBA-Bench$は、パラメータを効率的に微調整することで攻撃者がバックドアを注入できるようにする。
$textitELBA-Bench$は1300以上の実験を提供する。
論文 参考訳(メタデータ) (2025-02-22T12:55:28Z) - SafeRAG: Benchmarking Security in Retrieval-Augmented Generation of Large Language Model [17.046058202577985]
我々は、RAGセキュリティを評価するために、SafeRAGというベンチマークを導入する。
まず、アタックタスクを銀のノイズ、コンテキスト間競合、ソフト広告、ホワイト・デニアル・オブ・サービスに分類する。
次に、SafeRAGデータセットを使用して、RAGが遭遇する可能性のあるさまざまな攻撃シナリオをシミュレートします。
論文 参考訳(メタデータ) (2025-01-28T17:01:31Z) - FlippedRAG: Black-Box Opinion Manipulation Adversarial Attacks to Retrieval-Augmented Generation Models [22.35026334463735]
我々は、ブラックボックスRAGシステムに対するトランスファーベースの敵攻撃であるFlippedRAGを提案する。
FlippedRAGは、RAG生成反応の意見において平均50%の方向シフトを達成する。
これらの結果は、RAGシステムのセキュリティと信頼性を確保するために革新的な防衛ソリューションを開発する緊急の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-01-06T12:24:57Z) - Rag and Roll: An End-to-End Evaluation of Indirect Prompt Manipulations in LLM-based Application Frameworks [12.061098193438022]
Retrieval Augmented Generation (RAG) は、分散知識を欠くモデルによく用いられる手法である。
本稿では,RAGシステムのエンドツーエンドの間接的なプロンプト操作に対する安全性について検討する。
論文 参考訳(メタデータ) (2024-08-09T12:26:05Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - "Glue pizza and eat rocks" -- Exploiting Vulnerabilities in Retrieval-Augmented Generative Models [74.05368440735468]
Retrieval-Augmented Generative (RAG)モデルにより大規模言語モデル(LLM)が強化される
本稿では,これらの知識基盤の開放性を敵が活用できるセキュリティ上の脅威を示す。
論文 参考訳(メタデータ) (2024-06-26T05:36:23Z) - Corpus Poisoning via Approximate Greedy Gradient Descent [48.5847914481222]
本稿では,HotFlip法をベースとした高密度検索システムに対する新たな攻撃手法として,近似グレディ・グラディエント・Descentを提案する。
提案手法は,複数のデータセットと複数のレトリバーを用いて高い攻撃成功率を達成し,未知のクエリや新しいドメインに一般化可能であることを示す。
論文 参考訳(メタデータ) (2024-06-07T17:02:35Z) - Improved Generation of Adversarial Examples Against Safety-aligned LLMs [72.38072942860309]
勾配に基づく手法を用いて生成した敵対的プロンプトは、安全対応のLDMに対して自動ジェイルブレイク攻撃を行う際、優れた性能を示す。
本稿では,この問題に対する新たな視点を探求し,トランスファーベースの攻撃にインスパイアされたイノベーションを活用することで緩和できることを示唆する。
この組み合わせによって生成されたクエリ固有逆接接尾辞の87%がLlama-2-7B-Chatを誘導し、AdvBench上のターゲット文字列と正確に一致する出力を生成することを示した。
論文 参考訳(メタデータ) (2024-05-28T06:10:12Z) - RAGGED: Towards Informed Design of Scalable and Stable RAG Systems [51.171355532527365]
Retrieval-augmented Generation (RAG)は、外部知識を統合することで言語モデルを強化する。
RAGGEDは、RAGシステムを体系的に評価するためのフレームワークである。
論文 参考訳(メタデータ) (2024-03-14T02:26:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。