論文の概要: Lost in Modality: Evaluating the Effectiveness of Text-Based Membership Inference Attacks on Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2512.03121v1
- Date: Tue, 02 Dec 2025 14:11:51 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:11:40.664195
- Title: Lost in Modality: Evaluating the Effectiveness of Text-Based Membership Inference Attacks on Large Multimodal Models
- Title(参考訳): モダリティの喪失:大規模マルチモーダルモデルにおけるテキストベースメンバーシップ推論攻撃の有効性の評価
- Authors: Ziyi Tong, Feifei Sun, Le Minh Nguyen,
- Abstract要約: 大規模言語モデル(LLM)におけるデータ露出の評価手法として,ログベースメンバシップ推論攻撃(MIA)が広く採用されている。
テキストベースのMIA手法をマルチモーダル設定に拡張する最初の包括的な評価を行う。
- 参考スコア(独自算出の注目度): 3.9448289587779404
- License:
- Abstract: Large Multimodal Language Models (MLLMs) are emerging as one of the foundational tools in an expanding range of applications. Consequently, understanding training-data leakage in these systems is increasingly critical. Log-probability-based membership inference attacks (MIAs) have become a widely adopted approach for assessing data exposure in large language models (LLMs), yet their effect in MLLMs remains unclear. We present the first comprehensive evaluation of extending these text-based MIA methods to multimodal settings. Our experiments under vision-and-text (V+T) and text-only (T-only) conditions across the DeepSeek-VL and InternVL model families show that in in-distribution settings, logit-based MIAs perform comparably across configurations, with a slight V+T advantage. Conversely, in out-of-distribution settings, visual inputs act as regularizers, effectively masking membership signals.
- Abstract(参考訳): 大規模マルチモーダル言語モデル(MLLM)は、幅広いアプリケーションにおいて基礎となるツールの1つである。
したがって、これらのシステムにおけるトレーニングデータ漏洩の理解はますます重要になっている。
ログ確率に基づくメンバシップ推論攻撃(MIA)は,大規模言語モデル(LLM)におけるデータ露出評価の手法として広く採用されているが,MLLMにおけるその影響はいまだ不明である。
テキストベースのMIA手法をマルチモーダル設定に拡張する最初の包括的な評価を行う。
DeepSeek-VL と InternVL モデルファミリ間の視覚・テキスト(V+T)とテキストのみ(Tのみ)の条件下での実験では、分散環境では、ロジットベースのMIAが構成間で互換性があり、V+T の利点はわずかである。
逆に、アウト・オブ・ディストリビューション設定では、視覚入力が正規化器として機能し、メンバーシップシグナルを効果的にマスキングする。
関連論文リスト
- OpenLVLM-MIA: A Controlled Benchmark Revealing the Limits of Membership Inference Attacks on Large Vision-Language Models [8.88331104584743]
OpenLVLM-MIAは,大規模視覚言語モデル(LVLM)に対するメンバシップ推論攻撃(MIA)の評価において,基本的な課題を強調した新しいベンチマークである。
我々は, メンバーと非メンバーの分布を慎重にバランスさせ, 3つの異なるトレーニング段階にまたがって, 基幹メンバーシップラベルを提供する, 6000枚の画像の制御ベンチマークを導入する。
OpenLVLM-MIAを用いた実験では、最先端MIA法の性能は不偏条件下でランダムな確率に収束した。
論文 参考訳(メタデータ) (2025-10-18T01:39:28Z) - Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。
異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。
我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文 参考訳(メタデータ) (2025-08-20T17:59:51Z) - Mimicking or Reasoning: Rethinking Multi-Modal In-Context Learning in Vision-Language Models [19.361686225381447]
視覚言語モデル(VLM)は、文脈内学習(ICL)を示すと広く想定されている
提案するMM-ICLにはReasoningパイプラインが組み込まれている。
論文 参考訳(メタデータ) (2025-06-09T16:55:32Z) - MLLM-CL: Continual Learning for Multimodal Large Language Models [39.19456474036905]
ドメインと能力の連続学習を含む新しいベンチマークであるMLLM-CLを紹介する。
本稿では,パラメータ分離とMLLMに基づくルーティング機構による破滅的干渉を防止することを提案する。
我々のアプローチは、ドメイン固有の知識と機能的能力とを最小限の忘れ込みで統合することができ、既存の手法よりもはるかに優れています。
論文 参考訳(メタデータ) (2025-06-05T17:58:13Z) - Distilling Transitional Pattern to Large Language Models for Multimodal Session-based Recommendation [67.84581846180458]
セッションベースのレコメンデーション(SBR)は、匿名セッションに基づいて次の項目を予測する。
近年のMultimodal SBR法は、モダリティ学習に単純化された事前学習モデルを用いるが、セマンティック・リッチネスに制限がある。
蒸留パラダイムを拡張し,MSBRの促進のための遷移パターンを分離・整合させる多モードLCM拡張フレームワークTPADを提案する。
論文 参考訳(メタデータ) (2025-04-13T07:49:08Z) - FedMLLM: Federated Fine-tuning MLLM on Multimodal Heterogeneity Data [56.08867996209236]
フェデレートラーニング(FL)による微調整型マルチモーダル大言語モデル(MLLM)は、プライベートデータソースを含めることで、トレーニングデータの範囲を拡大することができる。
マルチモーダルな異種シナリオにおけるMLLMのファインチューニング性能を評価するためのベンチマークを提案する。
従来のFL手法を2つのモダリティに依存しない戦略と組み合わせた一般的なFedMLLMフレームワークを開発した。
論文 参考訳(メタデータ) (2024-11-22T04:09:23Z) - Towards Robust Multimodal Sentiment Analysis with Incomplete Data [20.75292807497547]
頑健なマルチモーダル感性分析(MSA)を実現するための言語支配型耐雑音学習ネットワーク(LNLN)を提案する。
LNLNは、支配的モダリティ補正(DMC)モジュールと支配的モダリティベースマルチモーダル学習(DMML)モジュールを備え、様々なノイズシナリオにおけるモデルの堅牢性を高める。
論文 参考訳(メタデータ) (2024-09-30T07:14:31Z) - Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning [15.919493497867567]
本研究では,VALSEベンチマークを用いたマルチモーダル大規模言語モデル(MLLM)の性能評価を目的とした。
我々は,モデルサイズや事前学習データセットの異なる最先端MLLMの包括的評価を行った。
論文 参考訳(メタデータ) (2024-07-17T11:26:47Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。
MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。