論文の概要: Black-Box Membership Inference Attack for LVLMs via Prior Knowledge-Calibrated Memory Probing
- arxiv url: http://arxiv.org/abs/2511.01952v1
- Date: Mon, 03 Nov 2025 13:16:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.611692
- Title: Black-Box Membership Inference Attack for LVLMs via Prior Knowledge-Calibrated Memory Probing
- Title(参考訳): 事前知識校正メモリ探索によるLVLMのブラックボックスメンバーシップ推論攻撃
- Authors: Jinhua Yin, Peiru Yang, Chen Yang, Huili Wang, Zhiyang Hu, Shangguang Wang, Yongfeng Huang, Tao Qi,
- Abstract要約: 大規模視覚言語モデル(LVLM)は、視覚的およびテキスト的データの膨大なコーパスに関する広範なトレーニングからその能力を導き出した。
LVLMのための最初のブラックボックスMIAフレームワークを提案する。
提案手法は,純粋にブラックボックス設定でLVLMのトレーニングデータを効果的に識別し,グレーボックス法やホワイトボックス法に匹敵する性能を実現する。
- 参考スコア(独自算出の注目度): 25.68362027128315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-language models (LVLMs) derive their capabilities from extensive training on vast corpora of visual and textual data. Empowered by large-scale parameters, these models often exhibit strong memorization of their training data, rendering them susceptible to membership inference attacks (MIAs). Existing MIA methods for LVLMs typically operate under white- or gray-box assumptions, by extracting likelihood-based features for the suspected data samples based on the target LVLMs. However, mainstream LVLMs generally only expose generated outputs while concealing internal computational features during inference, limiting the applicability of these methods. In this work, we propose the first black-box MIA framework for LVLMs, based on a prior knowledge-calibrated memory probing mechanism. The core idea is to assess the model memorization of the private semantic information embedded within the suspected image data, which is unlikely to be inferred from general world knowledge alone. We conducted extensive experiments across four LVLMs and three datasets. Empirical results demonstrate that our method effectively identifies training data of LVLMs in a purely black-box setting and even achieves performance comparable to gray-box and white-box methods. Further analysis reveals the robustness of our method against potential adversarial manipulations, and the effectiveness of the methodology designs. Our code and data are available at https://github.com/spmede/KCMP.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、膨大な視覚的・テキスト的データのコーパスを広範囲に訓練することに由来する。
大規模なパラメータが組み込まれたこれらのモデルは、トレーニングデータの強い記憶を示し、メンバーシップ推論攻撃(MIA)の影響を受けやすい。
既存のLVLMのMIA法は、ターゲットのLVLMに基づいて、疑わしいデータサンプルの確率に基づく特徴を抽出することによって、ホワイトボックスやグレーボックスの仮定の下で運用される。
しかし、一般的なLVLMは、推論中に内部の計算機能を隠蔽しながら生成した出力のみを公開し、これらの手法の適用性を制限する。
本研究では,従来の知識校正メモリ探索機構に基づく,LVLMのための最初のブラックボックスMIAフレームワークを提案する。
中心となる考え方は、疑わしい画像データに埋め込まれたプライベートセマンティック情報のモデル記憶を評価することである。
我々は4つのLVLMと3つのデータセットにわたる広範囲な実験を行った。
実験により,本手法は純粋にブラックボックス設定でLVLMのトレーニングデータを効果的に識別し,グレーボックス法やホワイトボックス法に匹敵する性能を達成できることを示した。
さらなる分析により,本手法の潜在的対角操作に対する堅牢性,および方法論設計の有効性が明らかとなった。
私たちのコードとデータはhttps://github.com/spmede/KCMPで公開されています。
関連論文リスト
- OpenLVLM-MIA: A Controlled Benchmark Revealing the Limits of Membership Inference Attacks on Large Vision-Language Models [8.88331104584743]
OpenLVLM-MIAは,大規模視覚言語モデル(LVLM)に対するメンバシップ推論攻撃(MIA)の評価において,基本的な課題を強調した新しいベンチマークである。
我々は, メンバーと非メンバーの分布を慎重にバランスさせ, 3つの異なるトレーニング段階にまたがって, 基幹メンバーシップラベルを提供する, 6000枚の画像の制御ベンチマークを導入する。
OpenLVLM-MIAを用いた実験では、最先端MIA法の性能は不偏条件下でランダムな確率に収束した。
論文 参考訳(メタデータ) (2025-10-18T01:39:28Z) - On the Evolution of Federated Post-Training Large Language Models: A Model Accessibility View [82.19096285469115]
Federated Learning (FL)は、クライアントデータのプライバシを保持しながら、分散データサイロをまたいだトレーニングモデルを可能にする。
近年,FL内での大規模言語モデル (LLM) の学習を効率化し,計算・通信の課題に対処する手法が研究されている。
これらの制限に対処するために、推論のみのパラダイム(ブラックボックスのFedLLM)が登場した。
論文 参考訳(メタデータ) (2025-08-22T09:52:31Z) - Image Corruption-Inspired Membership Inference Attacks against Large Vision-Language Models [27.04420374256226]
大規模視覚言語モデル(LVLM)は多くの下流タスクにおいて優れた性能を示した。
画像がLVLMのトレーニングに使用されるかどうかを検出することが重要である。
最近の研究は、LVLMに対するMIA(メンバシップ推論攻撃)について研究している。
論文 参考訳(メタデータ) (2025-06-14T04:22:36Z) - Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation [88.78166077081912]
我々は、MLLMから特定のマルチモーダル知識を削除する方法を評価するために、マルチモーダル・アンラーニング・ベンチマークUnLOK-VQAとアタック・アンド・ディフェンス・フレームワークを導入する。
その結果,マルチモーダル攻撃はテキストや画像のみの攻撃よりも優れており,最も効果的な防御は内部モデル状態から解答情報を除去することを示した。
論文 参考訳(メタデータ) (2025-05-01T01:54:00Z) - Does Unlearning Truly Unlearn? A Black Box Evaluation of LLM Unlearning Methods [1.9799527196428242]
大規模言語モデルアンラーニングは、LLMが悪意ある目的のために使用するのを防ぐために学んだ有害な情報を除去することを目的としている。
アンラーニングが一般的なモデル能力に顕著な影響を与えていることを示す。
簡単な方法で5ショットのプロンプトやリフレーズを行うことで、未学習ベンチマークの精度が10倍以上に向上する可能性があることを示す。
論文 参考訳(メタデータ) (2024-11-18T22:31:17Z) - Membership Inference Attacks against Large Vision-Language Models [40.996912464828696]
大規模視覚言語モデル(VLLM)は、様々なアプリケーションシナリオにわたるマルチモーダルタスクを処理するための有望な能力を示す。
彼らの出現は、プライベート写真や医療記録などの機密情報を含む可能性があることを考えると、重要なデータセキュリティ上の懸念も引き起こす。
VLLMで不適切な使用データを検出することは、致命的かつ未解決な問題である。
論文 参考訳(メタデータ) (2024-11-05T08:35:08Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - Mitigating Object Hallucination in Large Vision-Language Models via Image-Grounded Guidance [51.30560006045442]
Image-gRounded guIdaNcE (MARINE)は、トレーニングフリーかつAPIフリーのフレームワークである。
MARINEは、LVLMに画像グラウンドガイダンスを導入することにより、推論中の物体の幻覚を効果的かつ効率的に低減する。
私たちのフレームワークの柔軟性は、さらに複数のビジョンモデルの統合を可能にし、より信頼性が高く堅牢なオブジェクトレベルのガイダンスを可能にします。
論文 参考訳(メタデータ) (2024-02-13T18:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。