論文の概要: Five Queries Are Enough: Query-Efficient and Surrogate-Free Membership Inference Attacks on RAG via Entailment
- arxiv url: http://arxiv.org/abs/2605.24312v2
- Date: Sun, 31 May 2026 02:22:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 18:24:16.238638
- Title: Five Queries Are Enough: Query-Efficient and Surrogate-Free Membership Inference Attacks on RAG via Entailment
- Title(参考訳): 5つのクエリが十分である: クエリ効率が高く、サロゲート不要なメンバーシップ推論攻撃
- Authors: Nguyen Linh Bao Nguyen, Wanlun Ma, Viet Vo, Alsharif Abuadbba, Minghong Fang, Jun Zhang, Yang Xiang,
- Abstract要約: 本稿では,クエリ毎に得られる情報を最大化するために自然言語のエンタテインメントを利用するクエリ効率の高いMIAであるMEntA(Membership Entailment Attack)を提案する。
NFCorpus、SCIDOCS、TREC-COVID全体で、MEntAは最大0.991 AUCを5クエリで達成し、同等条件下では0.42 AUCの先行手法より優れている。
本研究は,RAGシステムにおける現実的かつ低コストなプライバシリークの実現可能性を明らかにするとともに,プライバシを意識した検索・防衛機構の緊急の必要性を明らかにするものである。
- 参考スコア(独自算出の注目度): 19.95305571949895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-augmented generation (RAG) has become central to large language model (LLM) deployments, grounding responses in enterprise or proprietary data to reduce hallucinations. However, this design introduces a new privacy risk: model outputs may signal the presence of specific documents in the retrieval corpus, enabling membership inference attacks (MIAs) that leak sensitive information. Existing MIAs are feasible, but they often rely on easily detected templated queries or require many non-templated yet costly and repetitive queries, limiting practicality. We ask: Can an adversary launch a limited-budget, surrogate-free, stealthy, and defense-agnostic membership inference attack using non-templated queries? We present MEntA (Membership Entailment Attack), a query-efficient MIA that leverages natural-language entailment to maximize information gained per query. By asking low-cost, broad, information-seeking questions and measuring entailment between model responses and candidate documents, MEntA eliminates the need for costly shadow models and large query budgets. Across NFCorpus, SCIDOCS, and TREC-COVID, MEntA achieves up to 0.991 AUC with only 5 queries, outperforming prior methods by up to 0.42 AUC under equivalent conditions. It remains effective under state-of-the-art (SOTA) RAG defenses, while current detectors either miss MEntA or flag benign queries at high rates. Regarding cost, MEntA reduces total attack cost by up to 65 $\times$ lower compared to SOTA attacks under the same attack setting. Our findings expose the feasibility of realistic, low-cost privacy leakage in RAG systems and highlight the urgent need for privacy-aware retrieval and defense mechanisms.
- Abstract(参考訳): Retrieval-augmented Generation (RAG)は大規模言語モデル(LLM)デプロイメントの中心となり、幻覚を減らすためにエンタープライズまたはプロプライエタリなデータに応答する。
モデル出力は、検索コーパス内の特定のドキュメントの存在を示唆し、機密情報を漏洩するメンバーシップ推論攻撃(MIA)を可能にする。
既存のMIAは実現可能であるが、しばしば簡単に検出できるテンプレートクエリに依存するか、多くの非測定済みでコストがかかる反復的なクエリを必要とするため、実用性は制限される。
敵は、制限予算、サロゲートフリー、ステルス、および非測定クエリを使用した防衛非依存のメンバシップ推論攻撃を起動できるだろうか?
本稿では,クエリ毎に得られる情報を最大化するために自然言語のエンタテインメントを利用するクエリ効率の高いMIAであるMEntA(Membership Entailment Attack)を提案する。
低コストで幅広い情報検索の質問や、モデル応答と候補文書の間の関連性の測定によって、MEntAはコストのかかるシャドウモデルと大きなクエリ予算の必要性を排除します。
NFCorpus、SCIDOCS、TREC-COVID全体で、MEntAは最大0.991 AUCを5クエリで達成し、同等条件下では0.42 AUCの先行手法より優れている。
最先端(SOTA)のRAG防衛の下では有効であり、現在の検出器はMEntAを見逃しているか、高速で良質なクエリをフラグする。
コストに関して、MEntAは同じ攻撃環境下でのSOTA攻撃と比較して、攻撃総コストを65ドル以下に削減する。
以上の結果から,RAGシステムにおける現実的かつ低コストなプライバシリークの可能性を明らかにするとともに,プライバシを意識した検索・防衛機構の緊急の必要性を明らかにする。
関連論文リスト
- WMAttack: Automated Attack Search for Adversarial Evaluation of World-Model Agents [53.84430233754606]
WMAttackは、世界モデルエージェントの敵意評価のための自動攻撃探索フレームワークである。
WMAttackは攻撃構成に対する有限予算探索としてロバストネス評価を定式化する。
WMAttackは評価ベースラインよりも強力な攻撃を継続的に発見することを示す。
論文 参考訳(メタデータ) (2026-05-22T04:31:09Z) - Adaptive Defense Orchestration for RAG: A Sentinel-Strategist Architecture against Multi-Vector Attacks [0.0]
検索強化世代システムは、医療や法律などの機密性の高い領域にますます展開されている。
この機能は、メンバシップ推論、データ中毒、意図しないコンテンツのリークなど、重大なセキュリティリスクをもたらす。
本稿では,リスク分析と防衛選択のためのコンテキスト認識フレームワークであるSentinel-Strategistアーキテクチャを提案する。
論文 参考訳(メタデータ) (2026-04-22T11:17:10Z) - ADAM: A Systematic Data Extraction Attack on Agent Memory via Adaptive Querying [18.047579533992252]
本稿では,被害者の記憶の分布を推定する新たなプライバシ攻撃ADAMを提案する。
我々の攻撃は最先端の攻撃よりも大幅に優れ、最大100%のASRを達成した。
論文 参考訳(メタデータ) (2026-04-10T07:22:11Z) - LLM Readiness Harness: Evaluation, Observability, and CI Gates for LLM/RAG Applications [51.56484100374058]
評価をデプロイメント決定ワークフローに変換するLLMおよびRAGアプリケーションのための準備性ハーネスを提案する。
このシステムは、最小限のAPI契約の下で、自動ベンチマーク、OpenTelemetryオブザーバビリティ、CI品質ゲートを組み合わせる。
チケットルーティングとBEIRタスクのハーネスを、完全なAzureマトリックスカバレッジで評価する。
論文 参考訳(メタデータ) (2026-03-28T18:03:32Z) - LoMime: Query-Efficient Membership Inference using Model Extraction in Label-Only Settings [3.4228148164859857]
メンバシップ推論攻撃(MIA)は、トレーニング中に特定のデータポイントが使用されたかどうかを明らかにすることで、マシンラーニングモデルのプライバシを脅かす。
転送可能性とモデル抽出に基づく,コスト効率の高いラベルのみのMIAフレームワークを提案する。
提案手法は,検索コストを大幅に削減しつつ,最先端のラベルのみのMIAの性能に適合する。
論文 参考訳(メタデータ) (2026-02-21T18:57:17Z) - NeuroFilter: Privacy Guardrails for Conversational LLM Agents [50.75206727081996]
本研究は,エージェント型大規模言語モデル(LLM)のプライバシを強制する際の計算上の課題に対処する。
NeuroFilterは、標準違反をモデルのアクティベーション空間における単純な方向にマッピングすることで、コンテキスト整合性を運用するガードレールフレームワークである。
7Bから70Bパラメータのモデルをカバーする15万以上のインタラクションに対する包括的な評価は、NeuroFilterの強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2026-01-21T05:16:50Z) - BudgetLeak: Membership Inference Attacks on RAG Systems via the Generation Budget Side Channel [21.74370009270649]
メンバーシップ推論攻撃(MIA)は、そのようなリスクを評価するための一般的な手法である。
我々は、RAGシステムにおいて、未探索のサイドチャネルであるジェネレーション予算を特定した。
BudgetLeakは、異なる予算下で応答を探索する新しいメンバーシップ推論攻撃である。
論文 参考訳(メタデータ) (2025-11-15T05:25:04Z) - Rescuing the Unpoisoned: Efficient Defense against Knowledge Corruption Attacks on RAG Systems [11.812488957698038]
大規模言語モデル(LLM)は私たちの日常生活の多くの側面を変え、Webベースのサービスとして広く採用されています。
検索・拡張生成(RAG)は,外部知識ソースに根ざした応答を生成することによって,将来性のある方向として登場した。
近年の研究では、誤情報注入による知識腐敗攻撃など、RAGの脆弱性が実証されている。
本稿では,知識汚職に対する資源効率のよい防御機構であるRAGDefenderを紹介する。
論文 参考訳(メタデータ) (2025-11-03T06:39:58Z) - Benchmarking Misuse Mitigation Against Covert Adversaries [80.74502950627736]
既存の言語モデルの安全性評価は、オーバースト攻撃と低レベルのタスクに重点を置いている。
我々は、隠蔽攻撃と対応する防御の評価を自動化するデータ生成パイプラインである、ステートフルディフェンスのためのベンチマーク(BSD)を開発した。
評価の結果,分解攻撃は有効な誤用防止剤であり,その対策としてステートフルディフェンスを強調した。
論文 参考訳(メタデータ) (2025-06-06T17:33:33Z) - Exploring the limits of strong membership inference attacks on large language models [70.49900359876595]
最先端メンバーシップ推論攻撃 (MIA) は通常、多くの参照モデルを訓練する必要がある。
事前訓練された言語モデルでは強力なMIAが成功するが,その有効性は限られている。
論文 参考訳(メタデータ) (2025-05-24T16:23:43Z) - mR$^2$AG: Multimodal Retrieval-Reflection-Augmented Generation for Knowledge-Based VQA [78.45521005703958]
マルチモーダル検索拡張生成(mRAG)はMLLMに包括的で最新の知識を提供するために自然に導入されている。
我々は、適応的検索と有用な情報ローカライゼーションを実現する textbfRetrieval-textbfReftextbfAugmented textbfGeneration (mR$2$AG) という新しいフレームワークを提案する。
mR$2$AG は INFOSEEK と Encyclopedic-VQA の最先端MLLM を著しく上回る
論文 参考訳(メタデータ) (2024-11-22T16:15:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。