論文の概要: Revisiting Data Auditing in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2504.18349v1
- Date: Fri, 25 Apr 2025 13:38:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.783754
- Title: Revisiting Data Auditing in Large Vision-Language Models
- Title(参考訳): 大規模視線言語モデルにおけるデータ監査の再検討
- Authors: Hongyu Zhu, Sichu Liang, Wenwen Wang, Boheng Li, Tongxin Yuan, Fangqi Li, ShiLin Wang, Zhuosheng Zhang,
- Abstract要約: VLM(Large Vision-Language Models)は、視覚エンコーダとLLMを統合して正確な視覚的グラウンドを行う。
VLMは通常、巨大なウェブスクラッド画像で訓練され、著作権侵害やプライバシー侵害に対する懸念が高まる。
トレーニングにサンプルを使用したかどうかを判断するメンバーシップ推論(MI)が重要な監査手法として登場した。
- 参考スコア(独自算出の注目度): 21.684618564057885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the surge of large language models (LLMs), Large Vision-Language Models (VLMs)--which integrate vision encoders with LLMs for accurate visual grounding--have shown great potential in tasks like generalist agents and robotic control. However, VLMs are typically trained on massive web-scraped images, raising concerns over copyright infringement and privacy violations, and making data auditing increasingly urgent. Membership inference (MI), which determines whether a sample was used in training, has emerged as a key auditing technique, with promising results on open-source VLMs like LLaVA (AUC > 80%). In this work, we revisit these advances and uncover a critical issue: current MI benchmarks suffer from distribution shifts between member and non-member images, introducing shortcut cues that inflate MI performance. We further analyze the nature of these shifts and propose a principled metric based on optimal transport to quantify the distribution discrepancy. To evaluate MI in realistic settings, we construct new benchmarks with i.i.d. member and non-member images. Existing MI methods fail under these unbiased conditions, performing only marginally better than chance. Further, we explore the theoretical upper bound of MI by probing the Bayes Optimality within the VLM's embedding space and find the irreducible error rate remains high. Despite this pessimistic outlook, we analyze why MI for VLMs is particularly challenging and identify three practical scenarios--fine-tuning, access to ground-truth texts, and set-based inference--where auditing becomes feasible. Our study presents a systematic view of the limits and opportunities of MI for VLMs, providing guidance for future efforts in trustworthy data auditing.
- Abstract(参考訳): 大型言語モデル(LLM)の急増に伴い、視覚エンコーダとLCMを統合して正確な視覚的接地を行うことで、汎用エージェントやロボット制御といったタスクに大きな可能性を示した。
しかしながら、VLMは通常、大規模なWebスクラッドイメージでトレーニングされ、著作権侵害やプライバシー侵害に対する懸念が高まり、データ監査がますます緊急になる。
トレーニングにサンプルを使用したかどうかを判断するメンバーシップ推論(MI)が重要な監査手法として登場し、LLaVA(AUC > 80%)のようなオープンソースのVLMに対して有望な結果が得られた。
本稿では、これらの進歩を再考し、重要な問題を明らかにする。現在のMIベンチマークは、MIパフォーマンスを向上するショートカットキューを導入し、メンバーと非メンバーイメージ間の分散シフトに悩まされている。
さらに,これらのシフトの性質を解析し,分布の不一致を定量化するための最適輸送に基づく原理的計量を提案する。
MIを現実的な設定で評価するために、I.d.メンバと非メンバーイメージを用いた新しいベンチマークを構築した。
既存のMIメソッドは、これらの不偏条件下では失敗し、偶然よりもわずかに優れている。
さらに、VLMの埋め込み空間内でベイズ最適性を求めることにより、MIの理論上界を探索し、既約誤差率が高いままであることを示す。
このような悲観的な見通しにもかかわらず、VLM 用 MI が特に困難である理由を分析し、微調整、地味テキストへのアクセス、セットベース推論の3つの実践シナリオを同定する。
本研究は、VLMにおけるMIの限界と機会を体系的に把握し、信頼性の高いデータ監査における今後の取り組みのガイダンスを提供する。
関連論文リスト
- Protecting multimodal large language models against misleading visualizations [94.71976205962527]
誤解を招くビジュアライゼーションの性能を改善するための最初の推論時間手法を紹介する。
MLLM問合せ精度は, 平均値からランダム基準値まで低下することがわかった。
論文 参考訳(メタデータ) (2025-02-27T20:22:34Z) - Membership Inference Attacks Against Vision-Language Models [24.47069867575367]
VLM(Vision-Language Models)は、例外的なマルチモーダル理解とダイアログ機能を示す。
データ誤用や漏洩のリスクは、ほとんど解明されていない。
本研究では,背景知識の異なるレベルに合わせた4つのメンバーシップ推論手法を提案する。
論文 参考訳(メタデータ) (2025-01-27T05:44:58Z) - OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation [95.78870389271832]
現代のMLLMを開発するための標準的な慣行は、視覚エンコーダ(s)からLLMに特徴を供給し、自然言語を監督する訓練を行うことである。
目的とする視覚表現の集合からLLMの隠れ表現に知識を抽出する最初の手法であるOLA-VLMを提案する。
OLA-VLMは様々なベンチマークで平均マージンを2.5%向上させ,CV-BenchのDepthタスクでは8.7%向上した。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - Membership Inference Attacks against Large Vision-Language Models [40.996912464828696]
大規模視覚言語モデル(VLLM)は、様々なアプリケーションシナリオにわたるマルチモーダルタスクを処理するための有望な能力を示す。
彼らの出現は、プライベート写真や医療記録などの機密情報を含む可能性があることを考えると、重要なデータセキュリティ上の懸念も引き起こす。
VLLMで不適切な使用データを検出することは、致命的かつ未解決な問題である。
論文 参考訳(メタデータ) (2024-11-05T08:35:08Z) - Detecting Training Data of Large Language Models via Expectation Maximization [62.28028046993391]
本稿では,予測最大化アルゴリズムを用いて,メンバーシップスコアとプレフィックススコアを反復的に洗練する新しいメンバーシップ推論手法EM-MIAを紹介する。
EM-MIAはWikiMIAで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-10T03:31:16Z) - Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate [118.37653302885607]
本稿では,LVLM(Large Vision Language Models)のマルチモーダル事前学習品質を示すために,MIR(Modality Integration Rate)を提案する。
MIRは、トレーニングデータ選択、トレーニング戦略スケジュール、モデルアーキテクチャ設計に重点を置いて、トレーニング前の結果を改善する。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z) - Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。
提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。
当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文 参考訳(メタデータ) (2024-10-03T17:53:30Z) - MIA-Tuner: Adapting Large Language Models as Pre-training Text Detector [32.15773300068426]
既存の手法では、様々な高度なMIAスコア関数を設計し、高い検出性能を実現している。
より正確な事前学習データ検出器としてLLM自体を指示する命令ベースのMIA手法であるMIA-Tunerを提案する。
既存の手法とMIA-Tunerによってもたらされるプライバシーリスクを軽減すべく、2つの命令ベースのセーフガードを設計する。
論文 参考訳(メタデータ) (2024-08-16T11:09:56Z) - SoK: Membership Inference Attacks on LLMs are Rushing Nowhere (and How to Fix It) [16.673210422615348]
LLMに対するメンバーシップ推論攻撃(MIA)を行うための10以上の新しい手法が提案されている。
固定だがランダム化されたレコードやモデルに依存する従来のMIAとは対照的に、これらの方法は主にトレーニングされ、ポストホックで収集されたデータセットでテストされる。
このランダム化の欠如は、メンバーと非メンバー間の分散シフトの懸念を引き起こす。
論文 参考訳(メタデータ) (2024-06-25T23:12:07Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。