論文の概要: ImageAuditor: Membership Inference Attack against Image-based Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2606.03354v1
- Date: Tue, 02 Jun 2026 09:03:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.889513
- Title: ImageAuditor: Membership Inference Attack against Image-based Retrieval-Augmented Generation
- Title(参考訳): ImageAuditor: 画像ベース検索型生成に対するメンバーシップ推論攻撃
- Authors: Jinghuai Zhang, Pengyue Yu, Zhexiao Lin, Kunlin Cai, Fnu Suya, Yuan Tian,
- Abstract要約: 画像ベース Retrieval-Augmented Generation (IRAG) は、外部データベースから取得した参照画像にフリーズジェネレータを条件とする。
これらのデータベースは不透明でウェブスクラップなので、著作権保持者は特定の画像が写っているかどうかを検査する方法が必要である。
IRAGに適した最初のMIAであるImageAuditorを導入し、各攻撃クエリを検索セグメントと抽出セグメントに分解する。
- 参考スコア(独自算出の注目度): 9.64120050798558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-based Retrieval-Augmented Generation (IRAG) conditions a frozen generator on reference images retrieved from an external database, supporting both text-to-image (T2I) and question answering (Q&A) tasks. Because these databases are opaque and web-scraped, copyright holders need ways to audit whether specific images appear in them. While prior work employs membership inference attacks (MIAs) to audit uni-modal, text-based RAG, they fail to transfer to IRAG due to two key challenges. First, cross-modal retrieval: text-RAG MIAs force retrieval of the target passage by injecting its content into the query, which is unavailable in IRAG since images cannot be embedded into text queries; even accurate image captions fail to bridge the modality gap. Second, discriminative signal extraction: text-RAG MIAs extract membership signals by prompting the generator to answer multiple questions over the target passage, whereas T2I generators in IRAG produce images rather than follow Q&A commands. To fill this gap, we introduce the first MIA tailored to IRAG, ImageAuditor, which decomposes each attack query into a retrieval segment and an extraction segment, enabling dedicated optimization for each challenge. For retrieval, we propose Reward-Guided Policy Optimization (RGPO), which updates a stochastic policy from reward-ranked candidates to navigate the cross-modal embedding landscape and admits finite-sample optimality guarantees to balance exploration and exploitation. For extraction, we analyze the distribution of the MIA score to guide the co-design of the prompting strategy and scoring rule, and derive task-specific instantiations for T2I and Q&A tasks. We aggregate signals across queries via K-means clustering for reliable membership decisions. Across various IRAG systems, ImageAuditor exceeds 80% AUROC with only four queries per audited image and remains robust across diverse settings.
- Abstract(参考訳): 画像ベース Retrieval-Augmented Generation (IRAG) は、外部データベースから取得した参照画像にフリーズジェネレータを条件付け、テキスト・トゥ・イメージ(T2I)と質問応答(Q&A)タスクの両方をサポートする。
これらのデータベースは不透明でウェブスクラップなので、著作権保持者は特定の画像が写っているかどうかを検査する方法が必要である。
以前の作業では、ユニモーダルでテキストベースのRAGの監査にMIA(Community Inference attack)を使用していたが、2つの重要な課題のためにIRAGへの転送に失敗した。
第1に、クロスモーダル検索: テキストRAG MIAsは、クエリにそのコンテンツを注入することでターゲットパスの強制検索を行うが、IRAGでは画像がテキストクエリに埋め込まれないため、画像の正確なキャプションでさえ、モダリティギャップを埋めることができない。
第2に、識別信号抽出:text-RAG MIAsは、生成元にターゲットパス上の複数の質問に応答するよう促すことにより、メンバシップ信号を抽出するが、IRAGのT2I生成元は、Q&Aコマンドに従うのではなく、画像を生成する。
このギャップを埋めるために、IRAGに適合した最初のMIA、ImageAuditorを導入し、各攻撃クエリを検索セグメントと抽出セグメントに分解し、各課題に対して専用の最適化を可能にする。
提案手法は,リワード誘導政策最適化 (RGPO) を提案する。これは,報酬の高い候補から確率的ポリシーを更新し,クロスモーダルな埋め込み環境をナビゲートし,探索と利用のバランスを取るための有限サンプル最適性を保証する。
抽出のために、MIAスコアの分布を分析し、プロンプト戦略とスコアリングルールの共設計をガイドし、T2IタスクとQ&Aタスクのタスク固有のインスタンス化を導出する。
信頼性のあるメンバシップ決定のために、K-meansクラスタリングを通じてクエリ間で信号を集約する。
IRAGシステム全体では、ImageAuditorはAUROCの80%を超えている。
関連論文リスト
- TIGER-FG: Text-Guided Implicit Fine-Grained Grounding for E-commerce Retrieval [10.927254533551563]
電子商取引の画像検索は、しばしばクロップされたイメージをクエリとして取り、各候補は完全なアイテムイメージと構造化されたテキストで表現される。
我々は,電子商取引検索のためのテキスト誘導型暗黙的きめ細かなグラウンドディングフレームワークTIGER-FGを提案する。
論文 参考訳(メタデータ) (2026-05-18T14:07:20Z) - WISER: Wider Search, Deeper Thinking, and Adaptive Fusion for Training-Free Zero-Shot Composed Image Retrieval [36.577766022251446]
ZS-CIRは、マルチモーダルクエリがアノテートされたトリプレットをトレーニングすることなく、ターゲット画像を取得することを目的としている。
我々は,T2IとI2Iを"検索-検証-精細化"パイプラインを介して統合する,トレーニング不要のフレームワークであるWISERを提案する。
論文 参考訳(メタデータ) (2026-02-26T14:11:10Z) - Pixel-Grounded Retrieval for Knowledgeable Large Multimodal Models [58.46663983451155]
PixSearchは、地域レベルの認識と検索強化推論を統合する、エンドツーエンドのLMM(Large Multimodal Model)である。
エンコーディング中、PixSearchは検索をトリガーする検索>トークンを出力し、クエリのモダリティ(テキスト、画像、リージョン)を選択し、ビジュアルクエリとして直接機能するピクセルレベルのマスクを生成する。
エゴセントリックでエンティティ中心のVQAベンチマークでは、PixSearchは事実整合性と一般化を大幅に改善する。
論文 参考訳(メタデータ) (2026-01-27T00:46:08Z) - UNION: A Lightweight Target Representation for Efficient Zero-Shot Image-Guided Retrieval with Optional Textual Queries [3.6723140587841656]
Image-Guided Retrieval with Optional Text (IGROT) は、クエリがアンカーイメージで構成され、テキストに付随するか否かに関わらず、意味論的に関連付けられたターゲットイメージを検索する一般的な検索設定である。
本研究では,低データ管理下でIGROTに対処するため,Null-textプロンプトでイメージを融合させる軽量で汎用的なターゲット表現であるUNIONを導入する。
論文 参考訳(メタデータ) (2025-11-27T09:28:28Z) - Divide by Question, Conquer by Agent: SPLIT-RAG with Question-Driven Graph Partitioning [62.640169289390535]
SPLIT-RAGは、質問駆動セマンティックグラフ分割と協調サブグラフ検索による制限に対処するマルチエージェントRAGフレームワークである。
革新的なフレームワークは、まずリンク情報のセマンティック分割を作成し、次にタイプ特化知識ベースを使用してマルチエージェントRAGを実現する。
属性対応グラフセグメンテーションは、知識グラフを意味的に一貫性のあるサブグラフに分割し、サブグラフが異なるクエリタイプと整合することを保証する。
階層的なマージモジュールは、論理的検証を通じて、部分グラフ由来の解答間の矛盾を解消する。
論文 参考訳(メタデータ) (2025-05-20T06:44:34Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - Detector-Free Weakly Supervised Grounding by Separation [76.65699170882036]
Wakly Supervised phrase-Grounding (WSG)は、画像中の任意のテキストフレーズをローカライズするためにデータを使用するタスクを扱う。
本稿では,事前学習した検出器を使わずにWSGを解くための検出器フリーWSG(DF-WSG)を提案する。
我々は、以前のdf-wsg sotaと比較して最大8.5%の精度向上を示す。
論文 参考訳(メタデータ) (2021-04-20T08:27:31Z) - Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。
まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。
さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文 参考訳(メタデータ) (2020-09-03T03:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。