論文の概要: Impossible Videos
- arxiv url: http://arxiv.org/abs/2503.14378v1
- Date: Tue, 18 Mar 2025 16:10:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 16:29:13.255089
- Title: Impossible Videos
- Title(参考訳): Unossible Videos
- Authors: Zechen Bai, Hai Ci, Mike Zheng Shou,
- Abstract要約: IPV-Benchは、ビデオ理解と生成の進歩を評価するために設計されたベンチマークである。
物理的、生物学的、地理的、社会的な法則に反する多様な場面が特徴である。
不可能なビデオを理解する能力に基づいて、ビデオLLMを評価するためのベンチマークが作成されている。
- 参考スコア(独自算出の注目度): 21.16715759223276
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Synthetic videos nowadays is widely used to complement data scarcity and diversity of real-world videos. Current synthetic datasets primarily replicate real-world scenarios, leaving impossible, counterfactual and anti-reality video concepts underexplored. This work aims to answer two questions: 1) Can today's video generation models effectively follow prompts to create impossible video content? 2) Are today's video understanding models good enough for understanding impossible videos? To this end, we introduce IPV-Bench, a novel benchmark designed to evaluate and foster progress in video understanding and generation. IPV-Bench is underpinned by a comprehensive taxonomy, encompassing 4 domains, 14 categories. It features diverse scenes that defy physical, biological, geographical, or social laws. Based on the taxonomy, a prompt suite is constructed to evaluate video generation models, challenging their prompt following and creativity capabilities. In addition, a video benchmark is curated to assess Video-LLMs on their ability of understanding impossible videos, which particularly requires reasoning on temporal dynamics and world knowledge. Comprehensive evaluations reveal limitations and insights for future directions of video models, paving the way for next-generation video models.
- Abstract(参考訳): 現在、合成ビデオは、実際のビデオのデータ不足と多様性を補完するために広く使われている。
現在の合成データセットは主に現実世界のシナリオを再現し、不可能、反現実的、反現実的なビデオ概念を未発見のまま残している。
この仕事は2つの質問に答えることを目的としています。
1)今日のビデオ生成モデルは、不可能なビデオコンテンツを作成するためのプロンプトを効果的に追えるか?
2)今日のビデオ理解モデルは、不可能なビデオを理解するのに十分か?
この目的のために,ビデオ理解と生成の進歩を評価・促進する新しいベンチマークであるIPV-Benchを紹介する。
IPV-Benchは4つのドメインと14のカテゴリからなる包括的な分類によって支えられている。
物理的、生物学的、地理的、社会的な法則に反する多様な場面が特徴である。
分類に基づいて、ビデオ生成モデルを評価するためにプロンプトスイートを構築し、そのプロンプトフォローとクリエイティビティ能力に挑戦する。
さらに、ビデオベンチマークを使用して、不可能なビデオを理解する能力に基づいて、ビデオ-LLMを評価する。
包括的評価は、ビデオモデルの将来的な方向性の限界と洞察を明らかにし、次世代のビデオモデルへの道を開く。
関連論文リスト
- VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness [76.16523963623537]
本稿では,本質的な忠実度を示すビデオ生成モデルを評価するためのベンチマークであるVBench-2.0を紹介する。
VBench-2.0は、人間の忠実さ、コントロール可能性、創造性、物理学、コモンセンスの5つの重要な次元を評価している。
VBench-2.0は、表面的な忠実性から本質的な忠実性までを推し進めることで、次世代のビデオ生成モデルの新たな標準を確立することを目指している。
論文 参考訳(メタデータ) (2025-03-27T17:57:01Z) - VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation [66.58048825989239]
VideoPhy-2は、生成されたビデオの物理的常識を評価するアクション中心のデータセットである。
我々は、生成したビデオのセマンティック・アテンデンス、物理コモンセンス、および物理ルールのグラウンド化を評価する人間の評価を行う。
結果より,最高のモデルでも22%のジョイントパフォーマンスを達成できたことが示唆された。
論文 参考訳(メタデータ) (2025-03-09T22:49:12Z) - GRADEO: Towards Human-Like Evaluation for Text-to-Video Generation via Multi-Step Reasoning [62.775721264492994]
GRADEOは、最初に設計されたビデオ評価モデルの1つである。
説明可能なスコアと評価のためにAIが生成したビデオを、多段階の推論によって評価する。
実験の結果,本手法は既存手法よりも人的評価に適合していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T07:04:55Z) - Generative Ghost: Investigating Ranking Bias Hidden in AI-Generated Videos [106.5804660736763]
ビデオ情報検索は、ビデオコンテンツにアクセスするための基本的なアプローチである。
我々は,検索モデルがアドホックや画像検索タスクにおいて,AI生成コンテンツに好適であることを示す。
我々は、ビデオ検索に挑戦する文脈において、同様のバイアスが出現するかどうかを考察する。
論文 参考訳(メタデータ) (2025-02-11T07:43:47Z) - What Matters in Detecting AI-Generated Videos like Sora? [51.05034165599385]
合成ビデオと現実世界のビデオのギャップは、まだ未発見のままだ。
本研究では,現在最先端のAIモデルであるStable Video Diffusionによって生成された実世界の映像を比較した。
我々のモデルは、訓練中にSoraのビデオに露出することなく、Soraが生成した映像を高精度に検出することができる。
論文 参考訳(メタデータ) (2024-06-27T23:03:58Z) - VideoPhy: Evaluating Physical Commonsense for Video Generation [93.28748850301949]
生成したビデオが現実世界のアクティビティの物理的常識に従うかどうかを評価するためのベンチマークであるVideoPhyを提示する。
そして、さまざまな最先端のテキスト・ビデオ生成モデルからキャプションに条件付けされたビデオを生成する。
人間の評価では、既存のモデルには、与えられたテキストプロンプトに付着したビデオを生成する能力が欠けていることが判明した。
論文 参考訳(メタデータ) (2024-06-05T17:53:55Z) - Let's Think Frame by Frame with VIP: A Video Infilling and Prediction
Dataset for Evaluating Video Chain-of-Thought [62.619076257298204]
我々は、少数のビデオ推論のシーケンシャルな理解として、フレーミングビデオ推論を動機付けている。
VIPは、ビデオチェーンオブ思考を通してモデルの推論能力を調べるために設計された、推論時の課題データセットである。
我々は、VIP上でGPT-4、GPT-3、VICUNAをベンチマークし、複雑なビデオ推論タスクのパフォーマンスギャップを実証し、今後の作業を促進する。
論文 参考訳(メタデータ) (2023-05-23T10:26:42Z) - Highlight Timestamp Detection Model for Comedy Videos via Multimodal
Sentiment Analysis [1.6181085766811525]
本研究では,この分野での最先端性能を得るためのマルチモーダル構造を提案する。
マルチモーダルビデオ理解のためのベンチマークをいくつか選択し、最適な性能を求めるのに最適なモデルを適用した。
論文 参考訳(メタデータ) (2021-05-28T08:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。