論文の概要: VMDT: Decoding the Trustworthiness of Video Foundation Models
- arxiv url: http://arxiv.org/abs/2511.05682v1
- Date: Fri, 07 Nov 2025 19:56:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.528785
- Title: VMDT: Decoding the Trustworthiness of Video Foundation Models
- Title(参考訳): VMDT:ビデオファンデーションモデルの信頼性をデコードする
- Authors: Yujin Potter, Zhun Wang, Nicholas Crispino, Kyle Montgomery, Alexander Xiong, Ethan Y. Chang, Francesco Pinto, Yuqi Chen, Rahul Gupta, Morteza Ziyadi, Christos Christodoulopoulos, Bo Li, Chenguang Wang, Dawn Song,
- Abstract要約: テキスト・トゥ・ビデオ(T2V)モデルとビデオ・トゥ・テキスト(V2T)モデルを評価するための最初の統一プラットフォームであるVMDTを紹介する。
VMDTを用いた7つのT2Vモデルと19のV2Tモデルの評価により、いくつかの重要な知見が得られた。
- 参考スコア(独自算出の注目度): 77.90980744982079
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As foundation models become more sophisticated, ensuring their trustworthiness becomes increasingly critical; yet, unlike text and image, the video modality still lacks comprehensive trustworthiness benchmarks. We introduce VMDT (Video-Modal DecodingTrust), the first unified platform for evaluating text-to-video (T2V) and video-to-text (V2T) models across five key trustworthiness dimensions: safety, hallucination, fairness, privacy, and adversarial robustness. Through our extensive evaluation of 7 T2V models and 19 V2T models using VMDT, we uncover several significant insights. For instance, all open-source T2V models evaluated fail to recognize harmful queries and often generate harmful videos, while exhibiting higher levels of unfairness compared to image modality models. In V2T models, unfairness and privacy risks rise with scale, whereas hallucination and adversarial robustness improve -- though overall performance remains low. Uniquely, safety shows no correlation with model size, implying that factors other than scale govern current safety levels. Our findings highlight the urgent need for developing more robust and trustworthy video foundation models, and VMDT provides a systematic framework for measuring and tracking progress toward this goal. The code is available at https://sunblaze-ucb.github.io/VMDT-page/.
- Abstract(参考訳): 基礎モデルが洗練され、信頼性がますます重要になる一方で、テキストや画像とは異なり、ビデオのモダリティには包括的な信頼性ベンチマークが欠けている。
VMDT(Video-Modal DecodingTrust)は,テキスト・トゥ・ビデオ(T2V)とビデオ・トゥ・テキスト(V2T)モデルを,安全性,幻覚,公正性,プライバシ,敵の堅牢性という5つの重要な信頼性の面で評価するための,最初の統一プラットフォームである。
VMDTを用いた7つのT2Vモデルと19のV2Tモデルの広範な評価を通じて、いくつかの重要な洞察が得られた。
例えば、評価されたすべてのオープンソースT2Vモデルは有害なクエリを認識できず、しばしば有害なビデオを生成するが、画像のモダリティモデルよりも高い不公平度を示す。
V2Tモデルでは、不公平性とプライバシのリスクは規模とともに上昇する一方、幻覚や敵対的な堅牢性は向上するが、全体的なパフォーマンスは低い。
ユニークなことに、安全性はモデルのサイズと相関関係がなく、スケール以外の要因が現在の安全性レベルを支配することを意味する。
我々の発見は、より堅牢で信頼性の高いビデオ基盤モデルを開発するための緊急の必要性を強調し、VMDTは、この目標に向けた進捗を計測し追跡するための体系的なフレームワークを提供する。
コードはhttps://sunblaze-ucb.github.io/VMDT-page/で入手できる。
関連論文リスト
- VidLeaks: Membership Inference Attacks Against Text-to-Video Models [17.443499650679964]
メンバーシップ推論攻撃(MIA)は、著作権やプライバシー侵害を監査するための原則化されたツールである。
2つの相補的な信号を通してスパース時間記憶を探索する新しいフレームワークVidLeaksを導入する。
我々の研究は、T2Vリークがスパース記憶と時間記憶の両方を通して、かなりのメンバーシップ情報をモデル化した最初の具体的な証拠を提供する。
論文 参考訳(メタデータ) (2026-01-16T11:35:52Z) - T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。
我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。
本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文 参考訳(メタデータ) (2025-04-22T01:18:42Z) - MMDT: Decoding the Trustworthiness and Safety of Multimodal Foundation Models [101.70140132374307]
MMFM(Multimodal foundation model)は、自律運転、ヘルスケア、バーチャルアシスタントなど、様々なアプリケーションにおいて重要な役割を果たす。
既存のマルチモーダルモデルのベンチマークは、主にこれらのモデルの有用性を評価するか、公平性やプライバシといった限られた視点にのみフォーカスする。
MMFMの安全性と信頼性を総合的に評価するために,最初の統合プラットフォームMMDT(Multimodal DecodingTrust)を提案する。
論文 参考訳(メタデータ) (2025-03-19T01:59:44Z) - ViBe: A Text-to-Video Benchmark for Evaluating Hallucination in Large Multimodal Models [13.04745908368858]
オープンソースT2Vモデルによる幻覚映像の大規模データセットであるViBeを紹介する。
10種類のT2Vモデルを用いて、837のMSキャプションから3,782本の動画を手動で作成した。
提案するベンチマークには、幻覚映像のデータセットと、ビデオ埋め込みを用いた分類フレームワークが含まれる。
論文 参考訳(メタデータ) (2024-11-16T19:23:12Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - TWLV-I: Analysis and Insights from Holistic Evaluation on Video Foundation Models [32.6243916760583]
本稿では,映像理解における2つの中核的能力(外観と動作理解)を測定するための枠組みを提案する。
我々は、モーションベースと外観ベースの両方で堅牢な視覚表現を構築する、新しいビデオ基盤モデルであるTWLV-Iを紹介する。
V-JEPA (ViT-L) に比べて4.6%改善し, UMT (ViT-L) よりも7.7%改善した。
論文 参考訳(メタデータ) (2024-08-21T03:56:27Z) - T2VSafetyBench: Evaluating the Safety of Text-to-Video Generative Models [39.15695612766001]
T2VSafetyBenchは,テキスト・ビデオモデルの安全性評価のための新しいベンチマークである。
ビデオ生成の安全性に関する12の重要な側面を定義し,悪意のあるプロンプトデータセットを構築する。
異なるモデルは様々な強みを示す。
テキスト・ビデオ生成モデルのユーザビリティと安全性にはトレードオフがある。
論文 参考訳(メタデータ) (2024-07-08T14:04:58Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - Subjective-Aligned Dataset and Metric for Text-to-Video Quality Assessment [54.00254267259069]
現在までに最大規模のテキスト・ビデオ品質評価データベース(T2VQA-DB)を構築している。
データセットは、9つの異なるT2Vモデルによって生成される1万のビデオで構成されている。
主観的テキスト・ビデオ品質評価(T2VQA)のためのトランスフォーマーに基づく新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-03-18T16:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。