論文の概要: Membership Inference Attacks Against Video Large Language Models
- arxiv url: http://arxiv.org/abs/2604.27002v1
- Date: Wed, 29 Apr 2026 04:21:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.712566
- Title: Membership Inference Attacks Against Video Large Language Models
- Title(参考訳): ビデオ大言語モデルに対する会員推測攻撃
- Authors: Wei Song, Yuxin Cao, Ziqi Ding, Yi Liu, Gelei Deng, Yuekang Li,
- Abstract要約: ビデオ大言語モデル(VideoLLMs)は、異種ソースから収集された大規模なビデオテキストコーパスに対して、ますます訓練や指導が進められている。
外部監査員は、トレーニング中に特定のビデオが使用されたかどうかを判断できるのか?
本稿では,ビデオLLMを対象とするブラックボックスMIAを提案する。
- 参考スコア(独自算出の注目度): 22.984834754546487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video large language models (VideoLLMs) are increasingly trained or instruction-tuned on large-scale video--text corpora collected from heterogeneous sources, raising an immediate privacy question: can an external auditor determine whether a particular video was used during training? While membership inference attacks (MIAs) have been studied extensively for classifiers and, more recently, for text and image generation models, the VideoLLM setting remains unexplored. This setting is challenging because black-box auditors observe only generated text, whereas the membership signal is entangled with video-specific factors such as motion complexity and temporal span. In this paper, we present a black-box MIA targeting VideoLLMs that couples temperature-perturbed generation with video-aware difficulty features. Our key intuition is that member samples tend to induce sharper, more brittle generation behavior across decoding temperatures, and that this signal should be interpreted jointly with the intrinsic difficulty of the queried video. Concretely, we query the target model at low and high temperatures, measure the semantic drift between the resulting texts. We evaluate the attack against \texttt{LLaVA-Video-7B-Qwen2-Video-Only} and achieve a member inference AUC of 0.68 and accuracy of 0.63. These results demonstrate that Video-LLMs are vulnerable to black-box membership inference attacks, highlighting an urgent need for the community to systematically evaluate and mitigate privacy risks in VideoLLMs.
- Abstract(参考訳): ビデオ大言語モデル(VideoLLMs)は、異種ソースから収集された大規模なビデオテキストコーパスに基づいて、ますます訓練や指導が進められている。
メンバシップ推論攻撃(MIA)は分類器やテキストおよび画像生成モデルで広く研究されているが、ビデオLLM設定はいまだ探索されていない。
この設定は、ブラックボックス監査者が生成したテキストのみを観察するのに対して、メンバシップ信号は動きの複雑さや時間的スパンといったビデオ固有の要因で絡み合っているため、難しい。
本稿では,ビデオLLMを対象とするブラックボックスMIAを提案する。
我々の重要な直感は、メンバーサンプルは、復号温度でより鋭く、より脆い生成行動を引き起こす傾向にあり、この信号は、クエリされたビデオの本質的な難易度と共同で解釈されるべきであるということです。
具体的には、ターゲットモデルを低温・高温でクエリし、結果のテキスト間のセマンティックドリフトを測定する。
我々は, <texttt{LLaVA-Video-7B-Qwen2-Video-Only} に対する攻撃を評価し, メンバー推定AUC 0.68, 精度 0.63 を達成する。
これらの結果から, Video-LLMはブラックボックスのメンバシップ推論攻撃に対して脆弱であり, VideoLLMのプライバシリスクを体系的に評価し緩和するコミュニティの緊急の必要性が浮かび上がっている。
関連論文リスト
- Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding [98.3098451637867]
Video-MME-v2は、ビデオ理解の堅牢性と忠実さを厳格に評価するために設計された総合的なベンチマークである。
データ品質を保証するため、Video-MME-v2は厳格に制御された人間のアノテーションパイプラインを通して構築される。
論文 参考訳(メタデータ) (2026-04-06T17:59:56Z) - Vid-SME: Membership Inference Attacks against Large Video Understanding Models [56.31088116526825]
ビデオ理解モデル(VULLM)で使用されるビデオデータに適した,最初の会員推論手法であるVid-SMEを紹介する。
自然なビデオフレームと時間的に反転したビデオフレームのSME差を利用して、Vid-SMEは、与えられたビデオがモデルのトレーニングセットの一部であるかどうかを判断するロバストなメンバーシップスコアを導出する。
様々な自己学習およびオープンソースVULLMの実験は、Vid-SMEの強力な有効性を示している。
論文 参考訳(メタデータ) (2025-05-29T13:17:25Z) - CoT-RVS: Zero-Shot Chain-of-Thought Reasoning Segmentation for Videos [59.391265901911005]
本稿では,MLLMのゼロショット・チェーン・オブ・ソート(CoT)機能を利用して,時間-意味的推論による複雑な問題に対処する新しいフレームワークであるCoT-RVSを提案する。
CoT-RVSは、言語クエリ(セマンティック)にマッチする可能性のある特定のフレーム内の可視オブジェクトを分析し、すべてのフレーム(一時)の中で、懸命に観察できる各オブジェクトに対して対応するオブジェクトを選択する。
当社のフレームワークのトレーニングフリー機能は,テスト時にCoTを使用して,よりよいターゲットが出現し始めると関心の対象を更新するオンラインビデオストリーム処理の拡張も可能にしています。
論文 参考訳(メタデータ) (2025-05-24T07:01:31Z) - VideoQA in the Era of LLMs: An Empirical Study [108.37456450182054]
Video Large Language Models (Video-LLMs) は盛んであり、多くのビデオ直感的なタスクを進歩させている。
本研究は,ビデオQAにおけるビデオLLMの行動に関するタイムリーかつ包括的な研究を行う。
分析の結果,ビデオ-LLMはビデオQAで優れており,文脈的手がかりを相関させ,様々な映像コンテンツに関する質問に対して妥当な応答を生成できることがわかった。
しかし、時間的コンテンツ順序の推論とQA関連時間的モーメントのグラウンド化の両方において、ビデオの時間性を扱うモデルが失敗する。
論文 参考訳(メタデータ) (2024-08-08T05:14:07Z) - MVMR: A New Framework for Evaluating Faithfulness of Video Moment Retrieval against Multiple Distractors [24.858928681280634]
本稿では,MVMR(Massive Videos Moment Retrieval for Faithfulness Evaluation)タスクを提案する。
それは、VMRモデルの忠実さを評価するために、複数のイントラクタを含む巨大なビデオセット内でビデオモーメントを検索することを目的としている。
そこで本研究では, 自動大容量ビデオプール構築フレームワークの提案を行い, 負(ディトラクタ)と正(偽)の動画セットを分類する。
論文 参考訳(メタデータ) (2023-08-15T17:38:55Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。