論文の概要: Vid-SME: Membership Inference Attacks against Large Video Understanding Models
- arxiv url: http://arxiv.org/abs/2506.03179v1
- Date: Thu, 29 May 2025 13:17:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:13.913609
- Title: Vid-SME: Membership Inference Attacks against Large Video Understanding Models
- Title(参考訳): Vid-SME:大規模ビデオ理解モデルに対するメンバーシップ推論攻撃
- Authors: Qi Li, Runpeng Yu, Xinchao Wang,
- Abstract要約: ビデオ理解モデル(VULLM)で使用されるビデオデータに適した,最初の会員推論手法であるVid-SMEを紹介する。
自然なビデオフレームと時間的に反転したビデオフレームのSME差を利用して、Vid-SMEは、与えられたビデオがモデルのトレーニングセットの一部であるかどうかを判断するロバストなメンバーシップスコアを導出する。
様々な自己学習およびオープンソースVULLMの実験は、Vid-SMEの強力な有効性を示している。
- 参考スコア(独自算出の注目度): 56.31088116526825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) demonstrate remarkable capabilities in handling complex multimodal tasks and are increasingly adopted in video understanding applications. However, their rapid advancement raises serious data privacy concerns, particularly given the potential inclusion of sensitive video content, such as personal recordings and surveillance footage, in their training datasets. Determining improperly used videos during training remains a critical and unresolved challenge. Despite considerable progress on membership inference attacks (MIAs) for text and image data in MLLMs, existing methods fail to generalize effectively to the video domain. These methods suffer from poor scalability as more frames are sampled and generally achieve negligible true positive rates at low false positive rates (TPR@Low FPR), mainly due to their failure to capture the inherent temporal variations of video frames and to account for model behavior differences as the number of frames varies. To address these challenges, we introduce Vid-SME, the first membership inference method tailored for video data used in video understanding LLMs (VULLMs). Vid-SME leverages the confidence of model output and integrates adaptive parameterization to compute Sharma-Mittal entropy (SME) for video inputs. By leveraging the SME difference between natural and temporally-reversed video frames, Vid-SME derives robust membership scores to determine whether a given video is part of the model's training set. Experiments on various self-trained and open-sourced VULLMs demonstrate the strong effectiveness of Vid-SME.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)は、複雑なマルチモーダルタスクを扱う際、顕著な能力を示し、ビデオ理解アプリケーションにますます採用されている。
しかし、その急速な進歩は、特に個人記録や監視映像などの機密性の高いビデオコンテンツがトレーニングデータセットに含まれている可能性を考えると、データプライバシーの深刻な懸念を提起する。
トレーニング中に不適切な使用ビデオを決定することは、批判的で未解決の課題である。
MLLMのテキストデータや画像データに対するMIA(Message Inference attack)の進歩にもかかわらず、既存の手法はビデオ領域に効果的に一般化することができなかった。
これらの手法は、より多くのフレームがサンプリングされ、一般的に低い偽陽性率(TPR@Low FPR)で無視可能な真の正の率を達成するため、スケーラビリティの低下に悩まされる。
これらの課題に対処するために,ビデオ理解LLM(VULLM)で使用されるビデオデータに適した,最初の会員推論手法であるVid-SMEを紹介する。
Vid-SMEは、モデル出力の信頼性を活用し、適応パラメータ化を統合して、ビデオ入力のシャーマ・ミッタルエントロピー(SME)を計算する。
自然なビデオフレームと時間的に反転したビデオフレームのSME差を利用して、Vid-SMEは、与えられたビデオがモデルのトレーニングセットの一部であるかどうかを判断するロバストなメンバーシップスコアを導出する。
様々な自己学習およびオープンソースVULLMの実験は、Vid-SMEの強力な有効性を示している。
関連論文リスト
- Video Summarization with Large Language Models [41.51242348081083]
本稿では,近年のLarge Language Models (LLM) の機能を活用したビデオ要約フレームワークを提案する。
LLM-based Video Summarization (LLMVS) と呼ばれる我々の手法は、ビデオフレームをMulti-Modal Large Language Model (MLLM) を用いて一連のキャプションに変換する。
実験の結果,提案手法は標準ベンチマークにおける既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-15T13:56:14Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - Harnessing Large Language Models for Training-free Video Anomaly Detection [34.76811491190446]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を時間的に検出することを目的としている。
トレーニングベースのメソッドはドメイン固有のものになりがちなので、実践的なデプロイメントにはコストがかかる。
Language-based VAD (LAVAD)を提案する。
論文 参考訳(メタデータ) (2024-04-01T09:34:55Z) - Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback [38.708690624594794]
ビデオとテキストのマルチモーダルアライメントは、主にマルチモーダル命令・チューンデータのボリュームと品質が不足しているため、依然として困難である。
本稿では,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる,マルチモーダルAIシステムを用いた新たなアライメント戦略を提案する。
具体的には、嗜好フィードバックの生成中に、詳細な映像記述を文脈として提供することによって、文脈対応報酬モデルを提案する。
論文 参考訳(メタデータ) (2024-02-06T06:27:40Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。