論文の概要: VMDT: Decoding the Trustworthiness of Video Foundation Models
- arxiv url: http://arxiv.org/abs/2511.05682v1
- Date: Fri, 07 Nov 2025 19:56:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.528785
- Title: VMDT: Decoding the Trustworthiness of Video Foundation Models
- Title(参考訳): VMDT:ビデオファンデーションモデルの信頼性をデコードする
- Authors: Yujin Potter, Zhun Wang, Nicholas Crispino, Kyle Montgomery, Alexander Xiong, Ethan Y. Chang, Francesco Pinto, Yuqi Chen, Rahul Gupta, Morteza Ziyadi, Christos Christodoulopoulos, Bo Li, Chenguang Wang, Dawn Song,
- Abstract要約: テキスト・トゥ・ビデオ(T2V)モデルとビデオ・トゥ・テキスト(V2T)モデルを評価するための最初の統一プラットフォームであるVMDTを紹介する。
VMDTを用いた7つのT2Vモデルと19のV2Tモデルの評価により、いくつかの重要な知見が得られた。
- 参考スコア(独自算出の注目度): 77.90980744982079
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As foundation models become more sophisticated, ensuring their trustworthiness becomes increasingly critical; yet, unlike text and image, the video modality still lacks comprehensive trustworthiness benchmarks. We introduce VMDT (Video-Modal DecodingTrust), the first unified platform for evaluating text-to-video (T2V) and video-to-text (V2T) models across five key trustworthiness dimensions: safety, hallucination, fairness, privacy, and adversarial robustness. Through our extensive evaluation of 7 T2V models and 19 V2T models using VMDT, we uncover several significant insights. For instance, all open-source T2V models evaluated fail to recognize harmful queries and often generate harmful videos, while exhibiting higher levels of unfairness compared to image modality models. In V2T models, unfairness and privacy risks rise with scale, whereas hallucination and adversarial robustness improve -- though overall performance remains low. Uniquely, safety shows no correlation with model size, implying that factors other than scale govern current safety levels. Our findings highlight the urgent need for developing more robust and trustworthy video foundation models, and VMDT provides a systematic framework for measuring and tracking progress toward this goal. The code is available at https://sunblaze-ucb.github.io/VMDT-page/.
- Abstract(参考訳): 基礎モデルが洗練され、信頼性がますます重要になる一方で、テキストや画像とは異なり、ビデオのモダリティには包括的な信頼性ベンチマークが欠けている。
VMDT(Video-Modal DecodingTrust)は,テキスト・トゥ・ビデオ(T2V)とビデオ・トゥ・テキスト(V2T)モデルを,安全性,幻覚,公正性,プライバシ,敵の堅牢性という5つの重要な信頼性の面で評価するための,最初の統一プラットフォームである。
VMDTを用いた7つのT2Vモデルと19のV2Tモデルの広範な評価を通じて、いくつかの重要な洞察が得られた。
例えば、評価されたすべてのオープンソースT2Vモデルは有害なクエリを認識できず、しばしば有害なビデオを生成するが、画像のモダリティモデルよりも高い不公平度を示す。
V2Tモデルでは、不公平性とプライバシのリスクは規模とともに上昇する一方、幻覚や敵対的な堅牢性は向上するが、全体的なパフォーマンスは低い。
ユニークなことに、安全性はモデルのサイズと相関関係がなく、スケール以外の要因が現在の安全性レベルを支配することを意味する。
我々の発見は、より堅牢で信頼性の高いビデオ基盤モデルを開発するための緊急の必要性を強調し、VMDTは、この目標に向けた進捗を計測し追跡するための体系的なフレームワークを提供する。
コードはhttps://sunblaze-ucb.github.io/VMDT-page/で入手できる。
関連論文リスト
- T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。
我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。
本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文 参考訳(メタデータ) (2025-04-22T01:18:42Z) - ViBe: A Text-to-Video Benchmark for Evaluating Hallucination in Large Multimodal Models [13.04745908368858]
オープンソースT2Vモデルによる幻覚映像の大規模データセットであるViBeを紹介する。
10種類のT2Vモデルを用いて、837のMSキャプションから3,782本の動画を手動で作成した。
提案するベンチマークには、幻覚映像のデータセットと、ビデオ埋め込みを用いた分類フレームワークが含まれる。
論文 参考訳(メタデータ) (2024-11-16T19:23:12Z) - TWLV-I: Analysis and Insights from Holistic Evaluation on Video Foundation Models [32.6243916760583]
本稿では,映像理解における2つの中核的能力(外観と動作理解)を測定するための枠組みを提案する。
我々は、モーションベースと外観ベースの両方で堅牢な視覚表現を構築する、新しいビデオ基盤モデルであるTWLV-Iを紹介する。
V-JEPA (ViT-L) に比べて4.6%改善し, UMT (ViT-L) よりも7.7%改善した。
論文 参考訳(メタデータ) (2024-08-21T03:56:27Z) - T2VSafetyBench: Evaluating the Safety of Text-to-Video Generative Models [39.15695612766001]
T2VSafetyBenchは,テキスト・ビデオモデルの安全性評価のための新しいベンチマークである。
ビデオ生成の安全性に関する12の重要な側面を定義し,悪意のあるプロンプトデータセットを構築する。
異なるモデルは様々な強みを示す。
テキスト・ビデオ生成モデルのユーザビリティと安全性にはトレードオフがある。
論文 参考訳(メタデータ) (2024-07-08T14:04:58Z) - Subjective-Aligned Dataset and Metric for Text-to-Video Quality Assessment [54.00254267259069]
現在までに最大規模のテキスト・ビデオ品質評価データベース(T2VQA-DB)を構築している。
データセットは、9つの異なるT2Vモデルによって生成される1万のビデオで構成されている。
主観的テキスト・ビデオ品質評価(T2VQA)のためのトランスフォーマーに基づく新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-03-18T16:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。