論文の概要: ViBe: A Text-to-Video Benchmark for Evaluating Hallucination in Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2411.10867v1
- Date: Sat, 16 Nov 2024 19:23:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:35:24.602981
- Title: ViBe: A Text-to-Video Benchmark for Evaluating Hallucination in Large Multimodal Models
- Title(参考訳): ViBe: 大規模マルチモーダルモデルにおける幻覚評価のためのテキスト・ビデオベンチマーク
- Authors: Vipula Rawte, Sarthak Jain, Aarush Sinha, Garv Kaushik, Aman Bansal, Prathiksha Rumale Vishwanath, Samyak Rajesh Jain, Aishwarya Naresh Reganti, Vinija Jain, Aman Chadha, Amit P. Sheth, Amitava Das,
- Abstract要約: 本稿では,T2Vモデルによる幻覚映像の大規模テキスト・ビデオベンチマークであるViBeを紹介する。
10個のオープンソースT2Vモデルを用いて,幻覚映像の大規模データセットを開発した。
このベンチマークは、入力プロンプトとより正確に一致したビデオを生成する堅牢なT2Vモデルの開発を促進することを目的としている。
- 参考スコア(独自算出の注目度): 13.04745908368858
- License:
- Abstract: Latest developments in Large Multimodal Models (LMMs) have broadened their capabilities to include video understanding. Specifically, Text-to-video (T2V) models have made significant progress in quality, comprehension, and duration, excelling at creating videos from simple textual prompts. Yet, they still frequently produce hallucinated content that clearly signals the video is AI-generated. We introduce ViBe: a large-scale Text-to-Video Benchmark of hallucinated videos from T2V models. We identify five major types of hallucination: Vanishing Subject, Numeric Variability, Temporal Dysmorphia, Omission Error, and Physical Incongruity. Using 10 open-source T2V models, we developed the first large-scale dataset of hallucinated videos, comprising 3,782 videos annotated by humans into these five categories. ViBe offers a unique resource for evaluating the reliability of T2V models and provides a foundation for improving hallucination detection and mitigation in video generation. We establish classification as a baseline and present various ensemble classifier configurations, with the TimeSFormer + CNN combination yielding the best performance, achieving 0.345 accuracy and 0.342 F1 score. This benchmark aims to drive the development of robust T2V models that produce videos more accurately aligned with input prompts.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)の最近の進歩は、ビデオ理解を含む能力を広げている。
具体的には、テキスト・トゥ・ビデオ(T2V)モデルは、単純なテキスト・プロンプトからビデオを作成するのに優れ、品質、理解、持続時間を大幅に進歩させた。
しかし、ビデオがAIによって生成されていることを示す幻覚コンテンツは、今でも頻繁に制作されている。
本稿では,T2Vモデルによる幻覚映像の大規模テキスト・ビデオベンチマークであるViBeを紹介する。
幻覚の5つのタイプを同定した: 消失対象, 数値変数, 時間的異形, 排便誤差, 身体的不一致。
10個のオープンソースT2Vモデルを用いて,人間によって注釈付けされた3,782本のビデオを含む,幻覚ビデオの最初の大規模データセットを開発した。
ViBeは、T2Vモデルの信頼性を評価するためのユニークなリソースを提供し、ビデオ生成における幻覚の検出と緩和を改善する基盤を提供する。
我々はベースラインとして分類を確立し、TimeSFormer + CNNの組み合わせによって0.345の精度と0.342のF1スコアが得られ、様々なアンサンブル分類器の構成を示す。
このベンチマークは、入力プロンプトとより正確に一致したビデオを生成する堅牢なT2Vモデルの開発を促進することを目的としている。
関連論文リスト
- xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。
VideoHallucerは幻覚を2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-06-24T06:21:59Z) - Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。
各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。
Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文 参考訳(メタデータ) (2024-06-10T06:17:55Z) - TALC: Time-Aligned Captions for Multi-Scene Text-to-Video Generation [72.25642183446102]
マルチシーンビデオを生成するためのシンプルで効果的なタイムアラインド・キャプション(TALC)フレームワークを提案する。
本稿では,T2Vモデルを用いて,マルチシーンのテキスト記述に準拠し,視覚的に一貫したマルチシーン映像を生成可能であることを示す。
論文 参考訳(メタデータ) (2024-05-07T21:52:39Z) - Subjective-Aligned Dataset and Metric for Text-to-Video Quality Assessment [54.00254267259069]
現在までに最大規模のテキスト・ビデオ品質評価データベース(T2VQA-DB)を構築している。
データセットは、9つの異なるT2Vモデルによって生成される1万のビデオで構成されている。
主観的テキスト・ビデオ品質評価(T2VQA)のためのトランスフォーマーに基づく新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-03-18T16:52:49Z) - Learning Video Representations from Large Language Models [31.11998135196614]
我々はLarge Language Models(LLMs)を利用したビデオ言語表現学習の新しいアプローチであるLaViLaを紹介した。
我々は、事前学習したLLMを視覚入力で条件付けするために再利用し、それらを微調整して自動ビデオナレーターを作成する。
私たちの自動生成ナレーションには、長いビデオの密接なカバレッジ、視覚情報とテキストの時間同期の改善、テキストの多様性の向上など、多くの利点があります。
論文 参考訳(メタデータ) (2022-12-08T18:59:59Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。