論文の概要: Typos that Broke the RAG's Back: Genetic Attack on RAG Pipeline by Simulating Documents in the Wild via Low-level Perturbations
- arxiv url: http://arxiv.org/abs/2404.13948v1
- Date: Mon, 22 Apr 2024 07:49:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 14:55:25.818861
- Title: Typos that Broke the RAG's Back: Genetic Attack on RAG Pipeline by Simulating Documents in the Wild via Low-level Perturbations
- Title(参考訳): 低レベルの摂動による野生の文書のシミュレーションによるRAGパイプラインの遺伝的攻撃
- Authors: Sukmin Cho, Soyeong Jeong, Jeongyeon Seo, Taeho Hwang, Jong C. Park,
- Abstract要約: Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) の限界に対処するための有望なソリューションである。
本研究では,RAGのロバスト性評価における2つの未解明点について検討する。
本稿では,RAG(textitGARAG)を標的とした新たな攻撃手法を提案する。
- 参考スコア(独自算出の注目度): 9.209974698634175
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The robustness of recent Large Language Models (LLMs) has become increasingly crucial as their applicability expands across various domains and real-world applications. Retrieval-Augmented Generation (RAG) is a promising solution for addressing the limitations of LLMs, yet existing studies on the robustness of RAG often overlook the interconnected relationships between RAG components or the potential threats prevalent in real-world databases, such as minor textual errors. In this work, we investigate two underexplored aspects when assessing the robustness of RAG: 1) vulnerability to noisy documents through low-level perturbations and 2) a holistic evaluation of RAG robustness. Furthermore, we introduce a novel attack method, the Genetic Attack on RAG (\textit{GARAG}), which targets these aspects. Specifically, GARAG is designed to reveal vulnerabilities within each component and test the overall system functionality against noisy documents. We validate RAG robustness by applying our \textit{GARAG} to standard QA datasets, incorporating diverse retrievers and LLMs. The experimental results show that GARAG consistently achieves high attack success rates. Also, it significantly devastates the performance of each component and their synergy, highlighting the substantial risk that minor textual inaccuracies pose in disrupting RAG systems in the real world.
- Abstract(参考訳): 最近のLarge Language Models(LLM)の堅牢性は、さまざまなドメインや実世界のアプリケーションに応用性を広げるにつれて、ますます重要になっている。
Retrieval-Augmented Generation (RAG) は LLM の限界に対処するための有望なソリューションであるが、RAG の堅牢性に関する既存の研究は、RAG コンポーネント間の相互関係や、小さなテキストエラーのような現実のデータベースで発生する潜在的な脅威をしばしば見落としている。
本研究では,RAGのロバスト性評価における2つの未解明点について検討する。
1)低レベルの摂動による騒々しい文書への脆弱性
2)RAG堅牢性の総合評価。
さらに,これらの側面を標的とした新たな攻撃手法であるRAG(\textit{GARAG})を導入する。
具体的には、GARAGは各コンポーネントの脆弱性を明らかにし、ノイズの多いドキュメントに対してシステム全体の機能をテストするように設計されている。
我々は、標準QAデータセットにtextit{GARAG}を適用し、多様なレトリバーとLLMを組み込んだRAGロバスト性を検証した。
実験の結果,GARAGは高い攻撃成功率を達成した。
また、各コンポーネントのパフォーマンスとその相乗効果を著しく破壊し、現実の世界におけるRAGシステムの破壊に小さなテキストの不正確さがもたらす重大なリスクを浮き彫りにした。
関連論文リスト
- Blended RAG: Improving RAG (Retriever-Augmented Generation) Accuracy with Semantic Search and Hybrid Query-Based Retrievers [0.0]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル (LLM) で文書のプライベートな知識基盤を注入し、生成的Q&A (Question-Answering) システムを構築するための一般的なアプローチである。
本稿では,Vector インデックスや Sparse インデックスなどのセマンティック検索手法をハイブリッドクエリ手法と組み合わせた 'Blended RAG' 手法を提案する。
本研究は,NQ や TREC-COVID などの IR (Information Retrieval) データセットの検索結果の改善と,新たなベンチマーク設定を行う。
論文 参考訳(メタデータ) (2024-03-22T17:13:46Z) - Retrieval-Augmented Generation for AI-Generated Content: A Survey [38.50754568320154]
このような課題に対処するためのパラダイムとして,レトリーバル拡張生成(RAG)が登場している。
RAGは情報検索プロセスを導入し、利用可能なデータストアから関連オブジェクトを検索することで生成プロセスを強化する。
本稿では,RAG手法をAIGCシナリオに統合する既存の取り組みを概観的にレビューする。
論文 参考訳(メタデータ) (2024-02-29T18:59:01Z) - The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented
Generation (RAG) [56.67603627046346]
Retrieval-augmented Generation (RAG)は、プロプライエタリおよびプライベートデータによる言語モデルを容易にする強力な技術である。
本研究では,プライベート検索データベースの漏洩に対するRAGシステムの脆弱性を実証する,新たな攻撃手法による実証的研究を行う。
論文 参考訳(メタデータ) (2024-02-23T18:35:15Z) - PoisonedRAG: Knowledge Poisoning Attacks to Retrieval-Augmented
Generation of Large Language Models [49.606341607616926]
我々は、RAGに対する知識中毒攻撃のセットであるPoisonedRAGを提案する。
我々は、知識中毒攻撃を最適化問題として定式化し、その解決策は有毒テキストの集合である。
以上の結果から,対象の質問に対して5つの有毒テキストを100万テキストのデータベースに注入した場合,攻撃が90%の攻撃成功率を達成する可能性が示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:28:36Z) - C-RAG: Certified Generation Risks for Retrieval-Augmented Language
Models [59.706532872634874]
RAGモデルの生成リスクを認証する最初のフレームワークであるC-RAGを提案する。
具体的には、RAGモデルに対して共形リスク分析を行い、生成リスクの上限以上の信頼度を認定する。
検索モデルと変圧器の品質が非自明な場合, RAG は単一の LLM よりも低い共形生成リスクを達成できることを示す。
論文 参考訳(メタデータ) (2024-02-05T16:46:16Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented
Generation of Large Language Models [55.47070014913373]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z) - The Power of Noise: Redefining Retrieval for RAG Systems [19.387105120040157]
Retrieval-Augmented Generation (RAG) は、大規模言語モデルの事前学習知識を超えて拡張する方法として登場した。
我々は、RAGソリューションが取得すべきパスIRシステムの種類に焦点を当てる。
論文 参考訳(メタデータ) (2024-01-26T14:14:59Z) - Seven Failure Points When Engineering a Retrieval Augmented Generation
System [1.8776685617612472]
RAGシステムは,大規模言語モデルからの幻覚応答の問題を解決することを目的としている。
RAGシステムは情報検索システム固有の制限に悩まされている。
本稿では3つのケーススタディからRAGシステムの故障点について報告する。
論文 参考訳(メタデータ) (2024-01-11T12:04:11Z) - Model Stealing Attack against Graph Classification with Authenticity,
Uncertainty and Diversity [85.1927483219819]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z) - Benchmarking Large Language Models in Retrieval-Augmented Generation [53.504471079548]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。
我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。
RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文 参考訳(メタデータ) (2023-09-04T08:28:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。