論文の概要: SMA: Who Said That? Auditing Membership Leakage in Semi-Black-box RAG Controlling
- arxiv url: http://arxiv.org/abs/2508.09105v2
- Date: Wed, 13 Aug 2025 11:05:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 14:06:00.584106
- Title: SMA: Who Said That? Auditing Membership Leakage in Semi-Black-box RAG Controlling
- Title(参考訳): SMA:誰がそう言ったのか? 半ブラックボックスのRAG制御でメンバーシップの漏洩を調査中
- Authors: Shixuan Sun, Siyuan Liang, Ruoyu Chen, Jianjie Huang, Jingzhi Li, Xiaochun Cao,
- Abstract要約: Retrieval-Augmented Generation(RAG)とそのMultimodal Retrieval-Augmented Generation(MRAG)は、大規模言語モデル(LLM)の知識カバレッジと文脈理解を著しく向上させる。
しかし、検索とマルチモーダル融合によるコンテンツの曖昧さは、既存のメンバーシップ推論手法を事前学習、外部検索、ユーザ入力に確実に属性付けできないようにし、プライバシー漏洩の説明責任を損なう。
本稿では,検索制御機能を備えた半ブラックボックス設定において,生成したコンテンツの微粒なソース属性を実現するための,SMA (Source-aware Membership Audit) を提案する。
- 参考スコア(独自算出の注目度): 50.66950115630554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) and its Multimodal Retrieval-Augmented Generation (MRAG) significantly improve the knowledge coverage and contextual understanding of Large Language Models (LLMs) by introducing external knowledge sources. However, retrieval and multimodal fusion obscure content provenance, rendering existing membership inference methods unable to reliably attribute generated outputs to pre-training, external retrieval, or user input, thus undermining privacy leakage accountability To address these challenges, we propose the first Source-aware Membership Audit (SMA) that enables fine-grained source attribution of generated content in a semi-black-box setting with retrieval control capabilities. To address the environmental constraints of semi-black-box auditing, we further design an attribution estimation mechanism based on zero-order optimization, which robustly approximates the true influence of input tokens on the output through large-scale perturbation sampling and ridge regression modeling. In addition, SMA introduces a cross-modal attribution technique that projects image inputs into textual descriptions via MLLMs, enabling token-level attribution in the text modality, which for the first time facilitates membership inference on image retrieval traces in MRAG systems. This work shifts the focus of membership inference from 'whether the data has been memorized' to 'where the content is sourced from', offering a novel perspective for auditing data provenance in complex generative systems.
- Abstract(参考訳): Retrieval-Augmented Generation(RAG)とそのMultimodal Retrieval-Augmented Generation(MRAG)は、外部知識源を導入することにより、Large Language Models(LLM)の知識カバレッジとコンテキスト理解を大幅に改善する。
しかし,検索とマルチモーダル融合によるコンテンツ発見,既存のメンバシップ推論手法を事前学習,外部検索,ユーザ入力に確実に属性付けできないようにすることで,プライバシリークのアカウンタビリティを損なうことにより,これらの課題に対処するために,検索制御機能付き半ブラックボックス設定で生成されたコンテンツの微粒なソース帰属を可能にする,SMA(Source-aware Membership Audit)を提案する。
半ブラックボックス監査の環境制約に対処するため,大規模摂動サンプリングとリッジ回帰モデリングにより入力トークンが出力に与える影響を頑健に近似するゼロオーダー最適化に基づく帰属推定機構を設計する。
さらに、SMAは、MLLMを通じて画像入力をテキスト記述に投影するクロスモーダル属性技術を導入し、MRAGシステムにおける画像検索トレースのメンバシップ推論を初めて促進する、テキストモダリティにおけるトークンレベルの属性を可能にする。
この研究は、メンバーシップ推論の焦点を「データが記憶されているかどうか」から「コンテンツが発信されている場所」にシフトさせ、複雑な生成系におけるデータの証明を監査するための新しい視点を提供する。
関連論文リスト
- CoRe-MMRAG: Cross-Source Knowledge Reconciliation for Multimodal RAG [53.950029990391066]
マルチモーダルRAG(CoRe-MMRAG)のためのクロスソース知識textbfReconciliation
本稿では,知識ソース間の不整合を効果的に解決する新しいエンドツーエンドフレームワークを提案する。
KB-VQAベンチマークの実験では、CoRe-MMRAGはベースライン法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-06-03T07:32:40Z) - ParamMute: Suppressing Knowledge-Critical FFNs for Faithful Retrieval-Augmented Generation [91.20492150248106]
本研究では,不誠実な生成の背後にある内部メカニズムを解明し,不均等に活性化される中深度フィードフォワードネットワーク(FFN)のサブセットを同定する。
本研究では,不信感関連FFNの活性化を抑制することにより,文脈的忠実度を向上させるフレームワークであるParametric Knowledge Mutingを提案する。
実験結果から,ParamMuteはCoFaithfulQAと確立されたConFiQAベンチマークの両方の信頼度を大幅に向上し,パラメトリックメモリへの依存度を大幅に低下させることが示された。
論文 参考訳(メタデータ) (2025-02-21T15:50:41Z) - Oreo: A Plug-in Context Reconstructor to Enhance Retrieval-Augmented Generation [28.568010424711563]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) の機能強化を目的としている。
生成に使用する前に検索したチャンクを洗練するために設計された,コンパクトで効率的な,プラグ可能なモジュールを導入する。
論文 参考訳(メタデータ) (2025-02-18T16:38:39Z) - RetroLLM: Empowering Large Language Models to Retrieve Fine-grained Evidence within Generation [21.764973680014368]
RetroLLMは、検索と生成を単一の凝集プロセスに統合する統合フレームワークである。
制約付きエビデンス生成の過程での偽プルーニングを軽減するために,階層的FM-Index制約を導入する。
5つのオープンドメインQAデータセットの実験では、ドメイン内タスクとドメイン外タスクの両方にわたって、RetroLLMの優れたパフォーマンスが示されている。
論文 参考訳(メタデータ) (2024-12-16T16:03:25Z) - Context Awareness Gate For Retrieval Augmented Generation [2.749898166276854]
Retrieval Augmented Generation (RAG) は、大規模言語モデル(LLM)の限界を軽減し、ドメイン固有の質問に答える手段として広く採用されている。
これまでの研究は主に、取得したデータチャンクの精度と品質を改善し、生成パイプライン全体のパフォーマンスを向上させることに重点を置いてきた。
オープンドメイン質問応答における無関係情報検索の効果について検討し,LLM出力の品質に対する顕著な有害な影響を明らかにする。
論文 参考訳(メタデータ) (2024-11-25T06:48:38Z) - TRACE: TRansformer-based Attribution using Contrastive Embeddings in LLMs [50.259001311894295]
TRACE と呼ばれるコントラスト埋め込みを用いた新しいTRansformer-based Attribution フレームワークを提案する。
TRACEは情報源の属性を精度良く改善し,大規模言語モデルの信頼性と信頼性を高める貴重なツールであることを示す。
論文 参考訳(メタデータ) (2024-07-06T07:19:30Z) - Learnable Item Tokenization for Generative Recommendation [78.30417863309061]
LETTER (Larnable Tokenizer for generaTivE Recommendation) を提案する。
LETTERは、セマンティック正規化のためのResidual Quantized VAE、協調正規化のためのコントラストアライメント損失、コードの割り当てバイアスを軽減するための多様性損失を組み込んでいる。
論文 参考訳(メタデータ) (2024-05-12T15:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。