Fugu-MT 論文翻訳(概要): ChronoMagic-Bench: A Benchmark for Metamorphic Evaluation of Text-to-Time-lapse Video Generation

論文の概要: ChronoMagic-Bench: A Benchmark for Metamorphic Evaluation of Text-to-Time-lapse Video Generation

arxiv url: http://arxiv.org/abs/2406.18522v2
Date: Tue, 01 Oct 2024 20:00:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 05:30:52.916987
Title: ChronoMagic-Bench: A Benchmark for Metamorphic Evaluation of Text-to-Time-lapse Video Generation
Title（参考訳）: ChronoMagic-Bench:テキストからタイムラプスビデオ生成のメタモルフィック評価のためのベンチマーク
Authors: Shenghai Yuan, Jinfa Huang, Yongqi Xu, Yaoyang Liu, Shaofeng Zhang, Yujun Shi, Ruijie Zhu, Xinhua Cheng, Jiebo Luo, Li Yuan,
Abstract要約: ChronoMagic-Benchは、テキスト・トゥ・ビデオ(T2V)生成ベンチマークである。モデルがメタモルフィックな振幅と時間的コヒーレンスを持つタイムラプスビデオを生成する能力に焦点を当てている。 10種類の代表的なT2Vモデルの手動評価を行い、その強度と弱点を明らかにした。大規模なChronoMagic-Proデータセットを作成し、460kの高品質な720pタイムラプスビデオを含む。
参考スコア（独自算出の注目度）: 57.651809298512276
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose a novel text-to-video (T2V) generation benchmark, ChronoMagic-Bench, to evaluate the temporal and metamorphic capabilities of the T2V models (e.g. Sora and Lumiere) in time-lapse video generation. In contrast to existing benchmarks that focus on visual quality and textual relevance of generated videos, ChronoMagic-Bench focuses on the model's ability to generate time-lapse videos with significant metamorphic amplitude and temporal coherence. The benchmark probes T2V models for their physics, biology, and chemistry capabilities, in a free-form text query. For these purposes, ChronoMagic-Bench introduces 1,649 prompts and real-world videos as references, categorized into four major types of time-lapse videos: biological, human-created, meteorological, and physical phenomena, which are further divided into 75 subcategories. This categorization comprehensively evaluates the model's capacity to handle diverse and complex transformations. To accurately align human preference with the benchmark, we introduce two new automatic metrics, MTScore and CHScore, to evaluate the videos' metamorphic attributes and temporal coherence. MTScore measures the metamorphic amplitude, reflecting the degree of change over time, while CHScore assesses the temporal coherence, ensuring the generated videos maintain logical progression and continuity. Based on ChronoMagic-Bench, we conduct comprehensive manual evaluations of ten representative T2V models, revealing their strengths and weaknesses across different categories of prompts, and providing a thorough evaluation framework that addresses current gaps in video generation research. Moreover, we create a large-scale ChronoMagic-Pro dataset, containing 460k high-quality pairs of 720p time-lapse videos and detailed captions ensuring high physical pertinence and large metamorphic amplitude. [Homepage](https://pku-yuangroup.github.io/ChronoMagic-Bench/).
Abstract（参考訳）: 本稿では,T2Vモデル(例えば Sora や Lumiere など)の時間的・メタモルフィック性を評価するために,新しいテキスト・トゥ・ビデオ(T2V)生成ベンチマークであるChronoMagic-Benchを提案する。生成されたビデオの視覚的品質とテキスト的関連性に焦点を当てた既存のベンチマークとは対照的に、ChronoMagic-Benchは、重要なメタモルフィック振幅と時間的コヒーレンスを持つタイムラプスビデオを生成するモデルの能力に焦点を当てている。このベンチマークは、自由形式のテキストクエリで、物理、生物学、化学能力のT2Vモデルを探索する。これらの目的のために、ChronoMagic-Benchは1,649のプロンプトと実世界のビデオを紹介し、生物学的、人造、気象学、物理現象の4つの主要なタイプのタイムラプスビデオに分類し、さらに75のサブカテゴリに分けられる。この分類は、多種多様な複雑な変換を扱うためのモデルの能力を包括的に評価する。 MTScoreとCHScoreという2つの新しい自動メトリクスを導入し、ビデオのメタモルフィック特性と時間的コヒーレンスを評価する。 MTScoreは時間とともに変化の度合いを反映して変成振幅を測定し、CHScoreは時間的コヒーレンスを評価し、生成されたビデオが論理的な進行と連続性を維持する。 ChronoMagic-Benchに基づいて、10種類の代表的T2Vモデルの総合的手動評価を行い、異なるカテゴリのプロンプトの強さと弱点を明らかにし、ビデオ生成研究における現在のギャップに対処する徹底的な評価フレームワークを提供する。さらに,大規模なChronoMagic-Proデータセットを作成し,高品質な720pタイムラプスビデオと詳細なキャプションを460万組備えた。 [ホームページ](https://pku-yuangroup.github.io/ChronoMagic-Bench/)

関連論文リスト

Universal Video Temporal Grounding with Generative Multi-modal Large Language Models [59.781211641591405]
本稿では,自然言語クエリに基づいて映像中の時間的モーメントを正確に局所化する,ユニバーサルビデオ時間的グラウンドの計算モデルを提案する。生成型マルチモーダル大言語モデル(MLLM)の強力な視覚言語理解機能を活用した,堅牢で普遍的なビデオグラウンドモデルUniTimeを提案する。我々のモデルは、複雑な言語クエリを解釈しながら、多様なビュー、ジャンル、長さの動画を効果的に処理する。
論文参考訳（メタデータ） (2025-06-23T17:53:18Z)
DejaVid: Encoder-Agnostic Learned Temporal Matching for Video Classification [4.973664680272982]
DejaVidは、アーキテクチャの再トレーニングや変更を必要とせずに、モデルパフォーマンスを向上させるエンコーダに依存しない方法である。この学習タスクのために,従来の時系列アライメントアルゴリズムにインスパイアされた新しいニューラルネットワークアーキテクチャを導入する。評価の結果,DejaVidは最先端の大規模エンコーダの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2025-06-14T17:39:03Z)
VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。新しい仮面融合はSAM2を双方向の点伝播に用いている。 The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文参考訳（メタデータ） (2025-06-05T17:59:29Z)
Vidi: Large Multimodal Models for Video Understanding and Editing [33.56852569192024]
本稿では,LMM(Large Multimodal Models)のファミリであるVidiを紹介する。最初のリリースでは、与えられたテキストクエリに対応する入力ビデオ内の時間範囲を特定する、時間的検索に焦点を当てている。 VUE-TRベンチマークも提案する。
論文参考訳（メタデータ） (2025-04-22T08:04:45Z)
TimeMarker: A Versatile Video-LLM for Long and Short Video Understanding with Superior Temporal Localization Ability [26.376975842846235]
ビデオコンテンツに基づく高品質な対話のための多目的ビデオLLMであるTimeMarkerを導入し、時間的ローカライゼーションを強調した。 TimeMarkerはTemporal Separator Tokensを統合して、時間的認識を高め、ビデオ内の特定の瞬間を正確にマークする。動的フレームサンプリングと適応トークンマージにAnyLengthメカニズムを使用し、ショートビデオとロングビデオの両方を効果的に扱うことができる。
論文参考訳（メタデータ） (2024-11-27T10:45:40Z)
Neuro-Symbolic Evaluation of Text-to-Video Models using Formalf Verification [5.468979600421325]
我々は,新しい合成ビデオ評価指標であるNeuS-Vを紹介する。 NeuS-Vは、ニューロシンボリック形式検証技術を用いて、テキストとビデオのアライメントを厳格に評価する。既存の指標と比較すると,NeuS-Vは5倍以上の相関性を示すことがわかった。
論文参考訳（メタデータ） (2024-11-22T23:59:12Z)
TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。 GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文参考訳（メタデータ） (2024-10-14T17:59:58Z)
xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。 VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。 DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文参考訳（メタデータ） (2024-08-22T17:55:22Z)
FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance [47.88160253507823]
我々は、既存のテキスト制御機構を改善する革新的なビデオジェネレータであるFancyVideoを紹介した。 CTGMは、TII(Temporal Information)、TAR(Temporal Affinity Refiner)、TFB(Temporal Feature Booster)をクロスアテンションの開始、中、末に組み込んでいる。
論文参考訳（メタデータ） (2024-08-15T14:47:44Z)
TC-Bench: Benchmarking Temporal Compositionality in Text-to-Video and Image-to-Video Generation [97.96178992465511]
生成したビデオは、新しい概念の出現と、時間経過とともに現実の動画のようにそれらの関係の遷移を取り入れるべきである、と我々は主張する。ビデオ生成モデルの時間構成性を評価するため,細部まで作り上げたテキストプロンプトのベンチマークであるTC-Benchと,それに対応する地上の真理ビデオ,ロバストな評価指標を提案する。
論文参考訳（メタデータ） (2024-06-12T21:41:32Z)
MagicTime: Time-lapse Video Generation Models as Metamorphic Simulators [56.01348424615965]
我々は,リアルタイムな物理知識をタイムラプスビデオから学習し,メタモルフィック生成を実装する,タイムラプスビデオ生成モデルであるtextbfMagicTimeを提案する。実験は、高品質でダイナミックなメタモルフィックビデオを生成するためにMagicTimeの優位性と有効性を示す。
論文参考訳（メタデータ） (2024-04-07T16:49:07Z)
Real-time Online Video Detection with Temporal Smoothing Transformers [4.545986838009774]
優れたストリーミング認識モデルは、ビデオの長期的ダイナミクスと短期的変化の両方をキャプチャする。この問題に対処するため、カーネルのレンズを通してビデオトランスのクロスアテンションを再構成する。テンポラルスムース変換器であるTeSTraを構築し、キャッシュと計算オーバーヘッドを一定に保ちながら任意の長さの入力を行う。
論文参考訳（メタデータ） (2022-09-19T17:59:02Z)
Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive Transformer [66.56167074658697]
本稿では3D-VQGANとトランスフォーマーを使って数千フレームのビデオを生成する手法を提案する。評価の結果,16フレームのビデオクリップでトレーニングしたモデルでは,多種多様でコヒーレントで高品質な長編ビデオが生成できることがわかった。また,テキストと音声に時間情報を組み込むことで,有意義な長ビデオを生成するための条件付き拡張についても紹介する。
論文参考訳（メタデータ） (2022-04-07T17:59:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。