論文の概要: BudgetLeak: Membership Inference Attacks on RAG Systems via the Generation Budget Side Channel
- arxiv url: http://arxiv.org/abs/2511.12043v1
- Date: Sat, 15 Nov 2025 05:25:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.528966
- Title: BudgetLeak: Membership Inference Attacks on RAG Systems via the Generation Budget Side Channel
- Title(参考訳): BudgetLeak: 世代予算サイドチャネルによるRAGシステムへのメンバシップ推論攻撃
- Authors: Hao Li, Jiajun He, Guangshuo Wang, Dengguo Feng, Zheng Li, Min Zhang,
- Abstract要約: メンバーシップ推論攻撃(MIA)は、そのようなリスクを評価するための一般的な手法である。
我々は、RAGシステムにおいて、未探索のサイドチャネルであるジェネレーション予算を特定した。
BudgetLeakは、異なる予算下で応答を探索する新しいメンバーシップ推論攻撃である。
- 参考スコア(独自算出の注目度): 21.74370009270649
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) enhances large language models by integrating external knowledge, but reliance on proprietary or sensitive corpora poses various data risks, including privacy leakage and unauthorized data usage. Membership inference attacks (MIAs) are a common technique to assess such risks, yet existing approaches underperform in RAG due to black-box constraints and the absence of strong membership signals. In this paper, we identify a previously unexplored side channel in RAG systems: the generation budget, which controls the maximum number of tokens allowed in a generated response. Varying this budget reveals observable behavioral patterns between member and non-member queries, as members gain quality more rapidly with larger budgets. Building on this insight, we propose BudgetLeak, a novel membership inference attack that probes responses under different budgets and analyzes metric evolution via sequence modeling or clustering. Extensive experiments across four datasets, three LLM generators, and two retrievers demonstrate that BudgetLeak consistently outperforms existing baselines, while maintaining high efficiency and practical viability. Our findings reveal a previously overlooked data risk in RAG systems and highlight the need for new defenses.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)は、外部知識を統合することで、大規模な言語モデルを強化するが、プライバシリークや不正なデータ使用など、プロプライエタリまたはセンシティブなコーパスに依存しているため、さまざまなデータリスクが生じる。
メンバーシップ推論攻撃(MIA)はそのようなリスクを評価するための一般的な手法であるが、既存のアプローチはブラックボックスの制約や強力なメンバーシップ信号の欠如によりRAGでは不十分である。
本稿では、RAGシステムにおける未探索のサイドチャネルを、生成した応答で許容されるトークンの最大数を制御する生成予算として特定する。
この予算に従えば、メンバと非メンバ間の観測可能な行動パターンが明らかになる。
この知見に基づいて、BudgetLeakを提案する。BudgetLeakは、異なる予算下で応答を探索し、シーケンスモデリングやクラスタリングを通じてメトリクスの進化を分析する新しいメンバーシップ推論攻撃である。
4つのデータセット、LLMジェネレータ、および2つのレトリバーにわたる大規模な実験により、BudgetLeakは、高い効率と実用性を維持しながら、既存のベースラインを一貫して上回ることを示した。
以上の結果から,RAGシステムでは従来見過ごされていたデータリスクが明らかとなり,新たな防衛の必要性が浮かび上がった。
関連論文リスト
- SMA: Who Said That? Auditing Membership Leakage in Semi-Black-box RAG Controlling [50.66950115630554]
Retrieval-Augmented Generation(RAG)とそのMultimodal Retrieval-Augmented Generation(MRAG)は、大規模言語モデル(LLM)の知識カバレッジと文脈理解を著しく向上させる。
しかし、検索とマルチモーダル融合によるコンテンツの曖昧さは、既存のメンバーシップ推論手法を事前学習、外部検索、ユーザ入力に確実に属性付けできないようにし、プライバシー漏洩の説明責任を損なう。
本稿では,検索制御機能を備えた半ブラックボックス設定において,生成したコンテンツの微粒なソース属性を実現するための,SMA (Source-aware Membership Audit) を提案する。
論文 参考訳(メタデータ) (2025-08-12T17:32:24Z) - MrM: Black-Box Membership Inference Attacks against Multimodal RAG Systems [31.53306157650065]
マルチモーダル検索拡張生成(RAG)システムは、クロスモーダル知識を統合することで、大きな視覚言語モデルを強化する。
これらの知識データベースには、プライバシー保護を必要とする機密情報が含まれている可能性がある。
MrMはマルチモーダルRAGシステムを対象とした最初のブラックボックスMIAフレームワークである。
論文 参考訳(メタデータ) (2025-06-09T03:48:50Z) - Towards Trustworthy Retrieval Augmented Generation for Large Language Models: A Survey [92.36487127683053]
Retrieval-Augmented Generation (RAG)は、AIGC(AIGC)の課題に対処するために設計された高度な技術である。
RAGは信頼性と最新の外部知識を提供し、幻覚を減らし、幅広いタスクで関連するコンテキストを保証する。
RAGの成功と可能性にもかかわらず、最近の研究により、RAGパラダイムはプライバシーの懸念、敵対的攻撃、説明責任の問題など、新たなリスクももたらしていることが示されている。
論文 参考訳(メタデータ) (2025-02-08T06:50:47Z) - Pirates of the RAG: Adaptively Attacking LLMs to Leak Knowledge Bases [11.101624331624933]
本稿では,RAGシステムにプライベート知識ベースを漏洩させるブラックボックス攻撃を提案する。
関連性に基づくメカニズムとアタッカーサイドのオープンソース LLM は、(隠された)知識ベースの大部分をリークする効果的なクエリの生成を好んでいる。
論文 参考訳(メタデータ) (2024-12-24T09:03:57Z) - Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。
本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。
我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文 参考訳(メタデータ) (2024-09-24T14:52:14Z) - Trustworthiness in Retrieval-Augmented Generation Systems: A Survey [59.26328612791924]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の開発において、急速に重要なパラダイムへと成長してきた。
本稿では,RAGシステムの信頼性を,事実性,堅牢性,公正性,透明性,説明責任,プライバシの6つの面で評価する統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2024-09-16T09:06:44Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Generating Is Believing: Membership Inference Attacks against Retrieval-Augmented Generation [9.73190366574692]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)における幻覚や知識の安定化といった問題を緩和する手法である。
既存の研究では、RAGのLCMに関連する潜在的なプライバシーリスクが示されている。
S$2$MIA, underlineMembership underlineInference underlineAttack, which uses the underlineSemantic underlineSimilarity between a given sample and the content generated by the RAG system。
論文 参考訳(メタデータ) (2024-06-27T14:58:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。