論文の概要: Vid-SME: Membership Inference Attacks against Large Video Understanding Models
- arxiv url: http://arxiv.org/abs/2506.03179v1
- Date: Thu, 29 May 2025 13:17:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:13.913609
- Title: Vid-SME: Membership Inference Attacks against Large Video Understanding Models
- Title(参考訳): Vid-SME:大規模ビデオ理解モデルに対するメンバーシップ推論攻撃
- Authors: Qi Li, Runpeng Yu, Xinchao Wang,
- Abstract要約: ビデオ理解モデル(VULLM)で使用されるビデオデータに適した,最初の会員推論手法であるVid-SMEを紹介する。
自然なビデオフレームと時間的に反転したビデオフレームのSME差を利用して、Vid-SMEは、与えられたビデオがモデルのトレーニングセットの一部であるかどうかを判断するロバストなメンバーシップスコアを導出する。
様々な自己学習およびオープンソースVULLMの実験は、Vid-SMEの強力な有効性を示している。
- 参考スコア(独自算出の注目度): 56.31088116526825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) demonstrate remarkable capabilities in handling complex multimodal tasks and are increasingly adopted in video understanding applications. However, their rapid advancement raises serious data privacy concerns, particularly given the potential inclusion of sensitive video content, such as personal recordings and surveillance footage, in their training datasets. Determining improperly used videos during training remains a critical and unresolved challenge. Despite considerable progress on membership inference attacks (MIAs) for text and image data in MLLMs, existing methods fail to generalize effectively to the video domain. These methods suffer from poor scalability as more frames are sampled and generally achieve negligible true positive rates at low false positive rates (TPR@Low FPR), mainly due to their failure to capture the inherent temporal variations of video frames and to account for model behavior differences as the number of frames varies. To address these challenges, we introduce Vid-SME, the first membership inference method tailored for video data used in video understanding LLMs (VULLMs). Vid-SME leverages the confidence of model output and integrates adaptive parameterization to compute Sharma-Mittal entropy (SME) for video inputs. By leveraging the SME difference between natural and temporally-reversed video frames, Vid-SME derives robust membership scores to determine whether a given video is part of the model's training set. Experiments on various self-trained and open-sourced VULLMs demonstrate the strong effectiveness of Vid-SME.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)は、複雑なマルチモーダルタスクを扱う際、顕著な能力を示し、ビデオ理解アプリケーションにますます採用されている。
しかし、その急速な進歩は、特に個人記録や監視映像などの機密性の高いビデオコンテンツがトレーニングデータセットに含まれている可能性を考えると、データプライバシーの深刻な懸念を提起する。
トレーニング中に不適切な使用ビデオを決定することは、批判的で未解決の課題である。
MLLMのテキストデータや画像データに対するMIA(Message Inference attack)の進歩にもかかわらず、既存の手法はビデオ領域に効果的に一般化することができなかった。
これらの手法は、より多くのフレームがサンプリングされ、一般的に低い偽陽性率(TPR@Low FPR)で無視可能な真の正の率を達成するため、スケーラビリティの低下に悩まされる。
これらの課題に対処するために,ビデオ理解LLM(VULLM)で使用されるビデオデータに適した,最初の会員推論手法であるVid-SMEを紹介する。
Vid-SMEは、モデル出力の信頼性を活用し、適応パラメータ化を統合して、ビデオ入力のシャーマ・ミッタルエントロピー(SME)を計算する。
自然なビデオフレームと時間的に反転したビデオフレームのSME差を利用して、Vid-SMEは、与えられたビデオがモデルのトレーニングセットの一部であるかどうかを判断するロバストなメンバーシップスコアを導出する。
様々な自己学習およびオープンソースVULLMの実験は、Vid-SMEの強力な有効性を示している。
関連論文リスト
- VideoPerceiver: Enhancing Fine-Grained Temporal Perception in Video Multimodal Large Language Models [9.896951371033229]
VideoPerceiverはビデオ理解における微細な認識を高めるビデオマルチモーダル大言語モデル(VMLLM)である。
そこで我々は,キャプションからイベントアクションキーワードを抽出し,対応するキーフレームを識別し,隣接するフレームに置き換えることで,キー情報伝達ビデオを構築する。
VideoPerceiverは、詳細なアクション理解とまれなイベントキャプションベンチマークにおいて、最先端のVMLLMを大幅に上回っている。
論文 参考訳(メタデータ) (2025-11-24T06:57:26Z) - An Empirical Study for Representations of Videos in Video Question Answering via MLLMs [4.726627693005334]
マルチモーダルな大言語モデルは近年,ビデオ質問応答において顕著な進歩を遂げている。
ビデオ表現がMLLMに最も有効なのか、また、異なるモダリティがタスクの精度と計算効率のバランスをとるのかは、まだ不明である。
論文 参考訳(メタデータ) (2025-10-14T09:02:22Z) - Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models [78.32948112203228]
ビデオ理解はコンピュータビジョンにおける最も困難なフロンティアである。
近年,映像理解タスクにおいて,映像多時間モデルが顕著に出現している。
Surveyは、ビデオ-LMM能力を向上するための統一的なフレームワークを研究者や実践者に提供することを目的としている。
論文 参考訳(メタデータ) (2025-10-06T17:10:44Z) - Training-free Uncertainty Guidance for Complex Visual Tasks with MLLMs [61.64185573373394]
本稿では,MLLMの本質的不確かさをプロアクティブ誘導信号として用いた学習自由フレームワークを提案する。
応答不確実性によって候補の視覚入力をスコアする統一的なメカニズムを導入し、モデルが最も健全なデータに自律的にフォーカスできるようにする。
本研究は,本質的な不確実性を活用することが,細粒度マルチモーダル性能を高めるための強力で汎用的な戦略であることを実証する。
論文 参考訳(メタデータ) (2025-10-01T09:20:51Z) - Episodic Memory Representation for Long-form Video Understanding [52.33907540905242]
大きなビデオ言語モデルは、一般的なビデオ理解において優れているが、長い形式のコンテキストウィンドウの制限に苦労する。
人間の記憶の原理にインスパイアされたトレーニングフリーのフレームワークであるVideo-EMを紹介する。
Video-EMでは、各ベースラインに対して4-9%のパフォーマンス向上を実現し、フレームの削減を実現している。
論文 参考訳(メタデータ) (2025-08-13T04:33:07Z) - How Important are Videos for Training Video LLMs? [55.965474658745315]
画像のみのトレーニングでは,ビデオLLMの方が時間的推論能力が高いことが示唆された。
本稿では,注釈付き画像のシーケンスと時間的機能に着目した質問を含む簡易な微調整手法を提案する。
これは、現在のモデルによるリアルタイムビデオに見られる豊富な時間的特徴の最適部分利用を示唆している。
論文 参考訳(メタデータ) (2025-06-07T21:32:19Z) - Video Summarization with Large Language Models [41.51242348081083]
本稿では,近年のLarge Language Models (LLM) の機能を活用したビデオ要約フレームワークを提案する。
LLM-based Video Summarization (LLMVS) と呼ばれる我々の手法は、ビデオフレームをMulti-Modal Large Language Model (MLLM) を用いて一連のキャプションに変換する。
実験の結果,提案手法は標準ベンチマークにおける既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-15T13:56:14Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - Fewer Tokens and Fewer Videos: Extending Video Understanding Abilities in Large Vision-Language Models [29.825619120260164]
本稿では,映像と映像の視覚的共通性を活かして,映像LVLMをビデオLVLMに進化させることによる課題に対処する。
本稿では、モデルアーキテクチャを強化し、革新的なトレーニング戦略を導入し、最も効果的なタイプのビデオ命令データを特定する、費用対効果のあるビデオLVLMを提案する。
論文 参考訳(メタデータ) (2024-06-12T09:22:45Z) - How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。
CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。
我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-05-06T17:59:45Z) - Harnessing Large Language Models for Training-free Video Anomaly Detection [34.76811491190446]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を時間的に検出することを目的としている。
トレーニングベースのメソッドはドメイン固有のものになりがちなので、実践的なデプロイメントにはコストがかかる。
Language-based VAD (LAVAD)を提案する。
論文 参考訳(メタデータ) (2024-04-01T09:34:55Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback [38.708690624594794]
ビデオとテキストのマルチモーダルアライメントは、主にマルチモーダル命令・チューンデータのボリュームと品質が不足しているため、依然として困難である。
本稿では,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる,マルチモーダルAIシステムを用いた新たなアライメント戦略を提案する。
具体的には、嗜好フィードバックの生成中に、詳細な映像記述を文脈として提供することによって、文脈対応報酬モデルを提案する。
論文 参考訳(メタデータ) (2024-02-06T06:27:40Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。