Fugu-MT 論文翻訳(概要): Machine Against the RAG: Jamming Retrieval-Augmented Generation with Blocker Documents

論文の概要: Machine Against the RAG: Jamming Retrieval-Augmented Generation with Blocker Documents

arxiv url: http://arxiv.org/abs/2406.05870v2
Date: Mon, 16 Sep 2024 14:52:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-18 01:55:54.514840
Title: Machine Against the RAG: Jamming Retrieval-Augmented Generation with Blocker Documents
Title（参考訳）: RAGに反対するマシン:Blockerドキュメントによる検索強化ジェネレーションのジャミング
Authors: Avital Shafran, Roei Schuster, Vitaly Shmatikov,
Abstract要約: Retrieval-augmented Generation (RAG)システムは、関連する文書を知識データベースから検索し、検索した文書にLSMを適用して回答を生成する。我々は、信頼できないコンテンツを持つデータベースで運用するRAGシステムが、私たちがジャミングと呼ぶ新しいタイプのサービス拒否攻撃に弱いことを実証した。
参考スコア（独自算出の注目度）: 17.95339197094059
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Retrieval-augmented generation (RAG) systems respond to queries by retrieving relevant documents from a knowledge database, then generating an answer by applying an LLM to the retrieved documents. We demonstrate that RAG systems that operate on databases with untrusted content are vulnerable to a new class of denial-of-service attacks we call jamming. An adversary can add a single ``blocker'' document to the database that will be retrieved in response to a specific query and result in the RAG system not answering this query - ostensibly because it lacks the information or because the answer is unsafe. We describe and measure the efficacy of several methods for generating blocker documents, including a new method based on black-box optimization. This method (1) does not rely on instruction injection, (2) does not require the adversary to know the embedding or LLM used by the target RAG system, and (3) does not use an auxiliary LLM to generate blocker documents. We evaluate jamming attacks on several LLMs and embeddings and demonstrate that the existing safety metrics for LLMs do not capture their vulnerability to jamming. We then discuss defenses against blocker documents.
Abstract（参考訳）: Retrieval-augmented Generation (RAG)システムは、関連する文書を知識データベースから検索し、検索した文書にLSMを適用して回答を生成する。我々は、信頼できないコンテンツを持つデータベースで運用するRAGシステムが、私たちがジャミングと呼ぶ新しいタイプのサービス拒否攻撃に弱いことを実証した。データベースに単一の ``blocker'' ドキュメントを追加すると、特定のクエリに応答して検索され、結果としてRAGシステムがこのクエリに応答しない。我々は,ブラックボックス最適化に基づく新しい手法を含む,ブロッカ文書を生成するためのいくつかの手法の有効性を記述し,評価する。この方法(1)は命令注入に依存しず、(2)ターゲットRAGシステムで使用される埋め込みやLDMを知るために敵を必要とせず、(3)補助LDMを使用してブロッカ文書を生成する。我々は,複数のLLMに対するジャミング攻撃と組込み攻撃を評価し,既存のLLMの安全性指標がジャミングの脆弱性を捉えていないことを実証した。次に、ブロッカ文書に対する防御について論じる。

関連論文リスト

RIPRAG: Hack a Black-box Retrieval-Augmented Generation Question-Answering System with Reinforcement Learning [23.957879891712306]
本稿では,ターゲットRAGシステムをブラックボックスとして扱うエンドツーエンド攻撃パイプラインを提案する。本手法は,ほとんどの複雑なRAGシステムに対する毒性攻撃を効果的に実行できることを実証する。
論文参考訳（メタデータ） (2025-10-11T04:23:20Z)
RAG Makes Guardrails Unsafe? Investigating Robustness of Guardrails under RAG-style Contexts [39.58550043591753]
外部LLMベースのガードレールモデルは、安全でない入力と出力をスクリーニングする一般的なソリューションとして登場した。 LLMをベースとしたガードレールが,文脈に埋め込まれた追加情報に対していかに堅牢かを検討した。
論文参考訳（メタデータ） (2025-10-06T19:20:43Z)
Safeguarding Privacy of Retrieval Data against Membership Inference Attacks: Is This Query Too Close to Home? [4.488261272565345]
Mirabelは、RAGシステム用に設計された類似性に基づくMIA検出フレームワークである。単純な検出・隠蔽戦略は攻撃者を難読化し、データユーティリティを維持でき、システムに依存しないことを示す。
論文参考訳（メタデータ） (2025-05-28T07:35:07Z)
Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。 LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文参考訳（メタデータ） (2025-05-23T08:13:59Z)
Defeating Prompt Injections by Design [79.00910871948787]
CaMeLは、Large Language Models (LLMs) を中心とした保護システムレイヤを作成する堅牢な防御機能である。 CaMeLは、(信頼された)クエリから制御とデータフローを明示的に抽出する。最近のエージェントセキュリティベンチマークであるAgentDojo[NeurIPS 2024]で、証明可能なセキュリティを備えた67%のタスクを解決し、CaMeLの有効性を実証した。
論文参考訳（メタデータ） (2025-03-24T15:54:10Z)
Dataset Protection via Watermarked Canaries in Retrieval-Augmented LLMs [67.0310240737424]
本稿では,テキストデータセットの所有権を保護し,RA-LLMによる不正使用を効果的に検出するための新しいアプローチを提案する。提案手法では,IPデータセットに特別に設計されたカナリア文書を挿入することにより,元のデータを完全に変更することなく保護する。検出プロセス中、カナリア文書をクエリし、RA-LLMの応答を分析することにより、不正使用を識別する。
論文参考訳（メタデータ） (2025-02-15T04:56:45Z)
Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Ownership Verification with Reasoning [58.57194301645823]
大規模言語モデル (LLM) は、検索強化生成機構 (RAG) を通じて現実のアプリケーションに統合されつつある。これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、通常、中毒攻撃を伴う。我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文参考訳（メタデータ） (2025-02-10T09:15:56Z)
Riddle Me This! Stealthy Membership Inference for Retrieval-Augmented Generation [18.098228823748617]
本稿では,RAGデータストア内の文書を対象としたメンバシップ推論手法であるInterrogation Attack (IA)を提案する。ステルス性を維持しながら、たった30クエリで推論に成功したことを実証します。我々は,様々なRAG構成に対する事前推論攻撃に対して,TPR@1%FPRの2倍の改善が観察された。
論文参考訳（メタデータ） (2025-02-01T04:01:18Z)
Mask-based Membership Inference Attacks for Retrieval-Augmented Generation [25.516648802281626]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)における幻覚を緩和するための効果的なアプローチである。近年,LLMトレーニングに使用せず,RAGナレッジデータベースに最新のデータや著作権データを格納する傾向にある。このプラクティスは、特定のターゲットドキュメントがRAGシステムのナレッジデータベースに格納されているかどうかを検出することを目的とした、メンバーシップ推論攻撃(MIAs)に対する懸念を提起している。
論文参考訳（メタデータ） (2024-10-26T10:43:39Z)
ChunkRAG: Novel LLM-Chunk Filtering Method for RAG Systems [2.8692611791027893]
Retrieval-Augmented Generation (RAG) システムは、無関係またはゆるい関連情報の検索によって不正確な応答を生成する。チャンクレベルで取得した情報を評価・フィルタリングすることでRAGシステムを強化するフレームワークであるChunkRAGを提案する。
論文参考訳（メタデータ） (2024-10-25T14:07:53Z)
Aligning LLMs to Be Robust Against Prompt Injection [55.07562650579068]
インジェクション攻撃に対してLCMをより堅牢にするための強力なツールとしてアライメントが有効であることを示す。私たちのメソッド -- SecAlign -- は、最初に、プロンプトインジェクション攻撃をシミュレートしてアライメントデータセットを構築します。実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。
論文参考訳（メタデータ） (2024-10-07T19:34:35Z)
GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning [79.07152553060601]
大規模言語モデル(LLM)の安全性を高める既存の手法は、LLMエージェントに直接転送することはできない。我々は、他のLLMエージェントに対するガードレールとして、最初のLLMエージェントであるGuardAgentを提案する。 GuardAgentは、1)提供されたガードリクエストを分析してタスクプランを作成し、2)タスクプランに基づいてガードレールコードを生成し、APIを呼び出すか、または外部エンジンを使用してコードを実行する。
論文参考訳（メタデータ） (2024-06-13T14:49:26Z)
BadRAG: Identifying Vulnerabilities in Retrieval Augmented Generation of Large Language Models [18.107026036897132]
大規模言語モデル(LLM)は時代遅れの情報と誤ったデータを生成する傾向によって制約される。 Retrieval-Augmented Generation (RAG) は、検索手法の強みと生成モデルを組み合わせることで、これらの制限に対処する。 RAG は LLM に対する新たな攻撃面を導入している。特に RAG データベースは Web などの公開データからしばしば引き出されるためである。
論文参考訳（メタデータ） (2024-06-03T02:25:33Z)
Phantom: General Trigger Attacks on Retrieval Augmented Language Generation [30.63258739968483]
Retrieval Augmented Generation (RAG)は、現代の大規模言語モデル(LLM)の機能を拡張する本稿では,RAGシステムの知識ベースに悪意ある文書を1つだけ注入し,バックドア中毒攻撃を行う新たな攻撃ベクトルを提案する。我々はGemma、Vicuna、Llamaを含む複数のLLMアーキテクチャに対する攻撃を実演し、GPT-3.5 TurboおよびGPT-4への移行を示す。
論文参考訳（メタデータ） (2024-05-30T21:19:24Z)
Is My Data in Your Retrieval Database? Membership Inference Attacks Against Retrieval Augmented Generation [0.9217021281095907]
本稿では,RAGシステムに対して,メンバーシップ推論攻撃(MIA)を行うための効率的かつ使いやすい手法を提案する。 2つのベンチマークデータセットと複数の生成モデルを用いて攻撃の有効性を示す。本研究は,RAGシステムにおけるセキュリティ対策の実施の重要性を浮き彫りにした。
論文参考訳（メタデータ） (2024-05-30T19:46:36Z)
PromptReps: Prompting Large Language Models to Generate Dense and Sparse Representations for Zero-Shot Document Retrieval [76.50690734636477]
本稿では,PmptRepsを提案する。このPmptRepsは,トレーニングを必要とせず,コーパス全体から検索できる機能である。検索システムは、高密度テキスト埋め込みとスパースバッグ・オブ・ワード表現の両方を利用する。
論文参考訳（メタデータ） (2024-04-29T04:51:30Z)
LLatrieval: LLM-Verified Retrieval for Verifiable Generation [67.93134176912477]
検証可能な生成は、大きな言語モデル(LLM)がドキュメントをサポートするテキストを生成することを目的としている。本稿では,LLatrieval (Large Language Model Verified Retrieval)を提案する。実験により、LLatrievalは幅広いベースラインを著しく上回り、最先端の結果が得られることが示された。
論文参考訳（メタデータ） (2023-11-14T01:38:02Z)
Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文参考訳（メタデータ） (2023-08-25T14:02:12Z)
Query Rewriting for Retrieval-Augmented Large Language Models [139.242907155883]
大規模言語モデル(LLM)は、検索対象のパイプラインで強力なブラックボックスリーダーを動作させる。この作業では、検索拡張LDMに対する以前の検索テーマ読み込みの代わりに、新しいフレームワークであるRewrite-Retrieve-Readを導入する。
論文参考訳（メタデータ） (2023-05-23T17:27:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。