論文の概要: ViBe: A Text-to-Video Benchmark for Evaluating Hallucination in Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2411.10867v2
- Date: Wed, 19 Mar 2025 18:53:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:32:32.241459
- Title: ViBe: A Text-to-Video Benchmark for Evaluating Hallucination in Large Multimodal Models
- Title(参考訳): ViBe: 大規模マルチモーダルモデルにおける幻覚評価のためのテキスト・ビデオベンチマーク
- Authors: Vipula Rawte, Sarthak Jain, Aarush Sinha, Garv Kaushik, Aman Bansal, Prathiksha Rumale Vishwanath, Samyak Rajesh Jain, Aishwarya Naresh Reganti, Vinija Jain, Aman Chadha, Amit P. Sheth, Amitava Das,
- Abstract要約: オープンソースT2Vモデルによる幻覚映像の大規模データセットであるViBeを紹介する。
10種類のT2Vモデルを用いて、837のMSキャプションから3,782本の動画を手動で作成した。
提案するベンチマークには、幻覚映像のデータセットと、ビデオ埋め込みを用いた分類フレームワークが含まれる。
- 参考スコア(独自算出の注目度): 13.04745908368858
- License:
- Abstract: Recent advances in Large Multimodal Models (LMMs) have expanded their capabilities to video understanding, with Text-to-Video (T2V) models excelling in generating videos from textual prompts. However, they still frequently produce hallucinated content, revealing AI-generated inconsistencies. We introduce ViBe (https://vibe-t2v-bench.github.io/): a large-scale dataset of hallucinated videos from open-source T2V models. We identify five major hallucination types: Vanishing Subject, Omission Error, Numeric Variability, Subject Dysmorphia, and Visual Incongruity. Using ten T2V models, we generated and manually annotated 3,782 videos from 837 diverse MS COCO captions. Our proposed benchmark includes a dataset of hallucinated videos and a classification framework using video embeddings. ViBe serves as a critical resource for evaluating T2V reliability and advancing hallucination detection. We establish classification as a baseline, with the TimeSFormer + CNN ensemble achieving the best performance (0.345 accuracy, 0.342 F1 score). While initial baselines proposed achieve modest accuracy, this highlights the difficulty of automated hallucination detection and the need for improved methods. Our research aims to drive the development of more robust T2V models and evaluate their outputs based on user preferences.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)の最近の進歩は、テキストプロンプトからビデオを生成するのに優れたテキスト・ツー・ビデオ(T2V)モデルによって、その能力をビデオ理解にまで拡張している。
しかし、彼らはしばしば幻覚コンテンツを制作し、AIが生成する矛盾を明らかにしている。
ViBe (https://vibe-t2v-bench.github.io/): オープンソースのT2Vモデルによる幻覚映像の大規模データセット。
主な幻覚型は,Vanishing Subject, Omission Error, Numeric Variability, Subject Dysmorphia, Visual Incongruityの5種類である。
10種類のT2Vモデルを用いて、837種類のMS COCOキャプションから3,782本の動画を手動で作成した。
提案するベンチマークには、幻覚映像のデータセットと、ビデオ埋め込みを用いた分類フレームワークが含まれる。
ViBeは、T2Vの信頼性を評価し、幻覚検出を促進するための重要なリソースである。
我々は,TimeSFormer+CNNアンサンブルが最高性能(0.345精度,0.342F1スコア)を達成し,ベースラインとしての分類を確立した。
当初提案されたベースラインは、わずかに精度が良いが、自動幻覚検出の難しさと改善された方法の必要性を強調している。
本研究の目的は、より堅牢なT2Vモデルの開発を促進し、ユーザの好みに基づいて出力を評価することである。
関連論文リスト
- xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。
VideoHallucerは幻覚を2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-06-24T06:21:59Z) - Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。
各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。
Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文 参考訳(メタデータ) (2024-06-10T06:17:55Z) - Subjective-Aligned Dataset and Metric for Text-to-Video Quality Assessment [54.00254267259069]
現在までに最大規模のテキスト・ビデオ品質評価データベース(T2VQA-DB)を構築している。
データセットは、9つの異なるT2Vモデルによって生成される1万のビデオで構成されている。
主観的テキスト・ビデオ品質評価(T2VQA)のためのトランスフォーマーに基づく新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-03-18T16:52:49Z) - Learning Video Representations from Large Language Models [31.11998135196614]
我々はLarge Language Models(LLMs)を利用したビデオ言語表現学習の新しいアプローチであるLaViLaを紹介した。
我々は、事前学習したLLMを視覚入力で条件付けするために再利用し、それらを微調整して自動ビデオナレーターを作成する。
私たちの自動生成ナレーションには、長いビデオの密接なカバレッジ、視覚情報とテキストの時間同期の改善、テキストの多様性の向上など、多くの利点があります。
論文 参考訳(メタデータ) (2022-12-08T18:59:59Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。