論文の概要: Spotlight: Identifying and Localizing Video Generation Errors Using VLMs
- arxiv url: http://arxiv.org/abs/2511.18102v1
- Date: Sat, 22 Nov 2025 15:55:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.628375
- Title: Spotlight: Identifying and Localizing Video Generation Errors Using VLMs
- Title(参考訳): Spotlight:VLMを用いたビデオ生成エラーの特定と位置特定
- Authors: Aditya Chinchure, Sahithya Ravi, Pushkar Shukla, Vered Shwartz, Leonid Sigal,
- Abstract要約: ビデオ生成エラーのローカライズと説明を目的とした新しいタスクであるSpotlightを紹介する。
200のテキストプロンプトと3つの最先端のビデオジェネレータを使って600の動画を生成する。
動作、物理、即効性を含む6つのタイプにまたがる1600以上のきめ細かなエラーを注釈します。
- 参考スコア(独自算出の注目度): 34.2478815457169
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current text-to-video models (T2V) can generate high-quality, temporally coherent, and visually realistic videos. Nonetheless, errors still often occur, and are more nuanced and local compared to the previous generation of T2V models. While current evaluation paradigms assess video models across diverse dimensions, they typically evaluate videos holistically without identifying when specific errors occur or describing their nature. We address this gap by introducing Spotlight, a novel task aimed at localizing and explaining video-generation errors. We generate 600 videos using 200 diverse textual prompts and three state-of-the-art video generators (Veo 3, Seedance, and LTX-2), and annotate over 1600 fine-grained errors across six types, including motion, physics, and prompt adherence. We observe that adherence and physics errors are predominant and persist across longer segments, whereas appearance-disappearance and body pose errors manifest in shorter segments. We then evaluate current VLMs on Spotlight and find that VLMs lag significantly behind humans in error identification and localization in videos. We propose inference-time strategies to probe the limits of current VLMs on our task, improving performance by nearly 2x. Our task paves a way forward to building fine-grained evaluation tools and more sophisticated reward models for video generators.
- Abstract(参考訳): 現在のテキスト・ツー・ビデオ・モデル(T2V)は高品質で時間的に一貫性があり、視覚的にもリアルなビデオを生成する。
それでも、エラーは頻繁に発生し、前世代のT2Vモデルよりもニュアンスが高く局所的である。
現在の評価パラダイムは、様々な次元にわたるビデオモデルを評価するが、一般的には、特定のエラーが発生した時やその性質を説明することなく、ビデオの全体的評価を行う。
ビデオ生成エラーのローカライズと説明を目的とした新しいタスクであるSpotlightを導入することで、このギャップに対処する。
我々は,200種類のテキストプロンプトと3つの最先端ビデオジェネレータ(Veo, Seedance, LTX-2)を用いて600本のビデオを生成し,動作,物理,プロンプト順守を含む6種類の細粒度エラーを1600本以上注釈する。
より短いセグメントで出現・消失・身体ポーズの誤りが現れるのに対し, 付着・物理誤差はより長いセグメントで支配的であり, 持続的であることが観察された。
次に、現在のVLMをSpotlightで評価し、ビデオ中のエラー識別とローカライゼーションにおいて、VLMが人間よりもかなり遅れていることを見出した。
本稿では,現在のVLMの限界を探索し,性能を2倍近く向上させる推論時戦略を提案する。
我々の課題は、よりきめ細かい評価ツールの構築と、ビデオジェネレータのためのより洗練された報酬モデルの構築に向けられている。
関連論文リスト
- TRANSPORTER: Transferring Visual Semantics from VLM Manifolds [56.749972238005604]
本稿では,ビデオ生成のためのモデルに依存しないアプローチであるTransportERとともに,ロジット・トゥ・ビデオ(L2V)タスクを提案する。
TransporterはVLMの高セマンティック埋め込み空間への最適輸送結合を学習する。
代わりに、ロジットスコアは条件付きビデオ生成のための埋め込み方向を定義する。
論文 参考訳(メタデータ) (2025-11-23T09:12:48Z) - BrokenVideos: A Benchmark Dataset for Fine-Grained Artifact Localization in AI-Generated Videos [63.03271511550633]
BrokenVideosは、3,254のAI生成ビデオのベンチマークデータセットで、微妙に注釈付けされたピクセルレベルのマスクが視覚的腐敗の領域を強調している。
実験の結果,BrokenVideosにおける人工物検出モデルの訓練状況とマルチモーダル大言語モデル(MLLM)が,破壊領域のローカライズ能力を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2025-06-25T03:30:04Z) - VideoRepair: Improving Text-to-Video Generation via Misalignment Evaluation and Localized Refinement [63.4357918830628]
VideoRepairは、モデルに依存しない、トレーニングなしのビデオリファインメントフレームワークである。
微粒なテキストビデオの誤りを特定し、明示的な空間的およびテキスト的フィードバックを生成する。
VideoRepairは、テキストとビデオのアライメントの指標で、最近のベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2024-11-22T18:31:47Z) - ReVisionLLM: Recursive Vision-Language Model for Temporal Grounding in Hour-Long Videos [25.988212332357545]
ReVisionLLMは、1時間ビデオ中のイベントを見つけるために設計された視覚言語モデルである。
人間の検索戦略にインスパイアされた私たちのモデルは、当初は幅広い関心領域をターゲットとしていました。
私たちのモデルは、数分から数時間の間、非常に異なる長さの動画をシームレスに処理することができます。
論文 参考訳(メタデータ) (2024-11-22T12:46:50Z) - VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - TempCompass: Do Video LLMs Really Understand Videos? [36.28973015469766]
既存のベンチマークでは、ビデオLLMの時間知覚能力に関する包括的なフィードバックが得られていない。
質の高い時間的側面とタスク形式を多様に導入した textbfTemp ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-03-01T12:02:19Z) - VGMShield: Mitigating Misuse of Video Generative Models [7.1819804607793705]
VGMShieldは、フェイクビデオ生成のライフサイクルを通じて、単純だが効果的な軽減策のセットである。
まずは偽のビデオ検出から始め、生成されたビデオにユニークさがあるかどうかを理解します。
そこで本研究では,偽動画を生成したモデルにマッピングする,偽ビデオソース追跡問題について検討する。
論文 参考訳(メタデータ) (2024-02-20T16:39:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。