論文の概要: AIGCBench: Comprehensive Evaluation of Image-to-Video Content Generated
by AI
- arxiv url: http://arxiv.org/abs/2401.01651v3
- Date: Tue, 23 Jan 2024 15:31:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 18:31:25.973773
- Title: AIGCBench: Comprehensive Evaluation of Image-to-Video Content Generated
by AI
- Title(参考訳): AIGCBench: AIが生成した画像間コンテンツの総合評価
- Authors: Fanda Fan, Chunjie Luo, Wanling Gao, Jianfeng Zhan
- Abstract要約: 本稿では,様々なビデオ生成タスクを評価するために設計された,先駆的な総合ベンチマークであるAIGCBenchを紹介する。
等価条件下で異なる最先端アルゴリズムを評価する、多様なオープンドメインの画像テキストデータセット。
我々は、リッチテキストプロンプトを作成するために、新しいテキストコンバインダーとGPT-4を使用し、高度なテキスト・ツー・イメージモデルを用いて画像を生成する。
- 参考スコア(独自算出の注目度): 1.1035305628305816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The burgeoning field of Artificial Intelligence Generated Content (AIGC) is
witnessing rapid advancements, particularly in video generation. This paper
introduces AIGCBench, a pioneering comprehensive and scalable benchmark
designed to evaluate a variety of video generation tasks, with a primary focus
on Image-to-Video (I2V) generation. AIGCBench tackles the limitations of
existing benchmarks, which suffer from a lack of diverse datasets, by including
a varied and open-domain image-text dataset that evaluates different
state-of-the-art algorithms under equivalent conditions. We employ a novel text
combiner and GPT-4 to create rich text prompts, which are then used to generate
images via advanced Text-to-Image models. To establish a unified evaluation
framework for video generation tasks, our benchmark includes 11 metrics
spanning four dimensions to assess algorithm performance. These dimensions are
control-video alignment, motion effects, temporal consistency, and video
quality. These metrics are both reference video-dependent and video-free,
ensuring a comprehensive evaluation strategy. The evaluation standard proposed
correlates well with human judgment, providing insights into the strengths and
weaknesses of current I2V algorithms. The findings from our extensive
experiments aim to stimulate further research and development in the I2V field.
AIGCBench represents a significant step toward creating standardized benchmarks
for the broader AIGC landscape, proposing an adaptable and equitable framework
for future assessments of video generation tasks. We have open-sourced the
dataset and evaluation code on the project website:
https://www.benchcouncil.org/AIGCBench.
- Abstract(参考訳): 人工知能生成コンテンツ(AIGC)の急成長する分野は、特にビデオ生成において急速に進歩している。
本稿では,画像対ビデオ(i2v)生成に重点を置き,様々な映像生成タスクを評価するための総合的・スケーラブルなベンチマークであるaigcbenchについて述べる。
AIGCBenchは、同等条件下で異なる最先端アルゴリズムを評価するさまざまなオープンドメインの画像テキストデータセットを含めることで、多様なデータセットの不足に悩まされる既存のベンチマークの制限に取り組む。
我々は、リッチテキストプロンプトを作成するために、新しいテキストコンバインダーとGPT-4を使用し、高度なテキスト・ツー・イメージモデルを用いて画像を生成する。
ビデオ生成タスクの統一評価フレームワークを確立するため,ベンチマークでは,アルゴリズムの性能を評価するために,4次元にまたがる11のメトリクスを含む。
これらの次元は、制御ビデオアライメント、モーションエフェクト、時間的一貫性、ビデオ品質である。
これらの指標は、参照ビデオ依存とビデオフリーの両方であり、包括的な評価戦略を確実にする。
提案した評価基準は人間の判断とよく相関し、現在のI2Vアルゴリズムの強みと弱みに関する洞察を提供する。
本研究はI2V分野におけるさらなる研究・開発を促進することを目的としている。
AIGCBenchは、より広範なAIGCランドスケープのための標準化されたベンチマークを作成するための重要なステップであり、ビデオ生成タスクの将来の評価に適応可能で公平なフレームワークを提案する。
私たちは、プロジェクトwebサイトでデータセットと評価コードをオープンソース化した。
関連論文リスト
- E2HQV: High-Quality Video Generation from Event Camera via
Theory-Inspired Model-Aided Deep Learning [53.63364311738552]
バイオインスパイアされたイベントカメラやダイナミックビジョンセンサーは、高時間分解能と高ダイナミックレンジでピクセルごとの明るさ変化(イベントストリームと呼ばれる)を捉えることができる。
イベントストリームを入力として取り出し、直感的な視覚化のために高品質なビデオフレームを生成する、イベント間ビデオ(E2V)ソリューションを求めている。
イベントから高品質なビデオフレームを生成するために設計された新しいE2VパラダイムであるtextbfE2HQVを提案する。
論文 参考訳(メタデータ) (2024-01-16T05:10:50Z) - Towards A Better Metric for Text-to-Video Generation [102.16250512265995]
生成モデルは高品質のテキスト、画像、ビデオの合成において顕著な能力を示した。
新たな評価パイプラインであるText-to-Video Score(T2VScore)を導入する。
本尺度は,(1)テキスト記述における映像の忠実度を精査するテキスト・ビデオ・アライメント,(2)ビデオ品質,(2)ビデオ全体の製作口径を専門家の混合で評価するビデオ品質の2つの重要な基準を統合した。
論文 参考訳(メタデータ) (2024-01-15T15:42:39Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [72.52996858794533]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
まず,大規模言語モデルの助けを借りて実世界のプロンプトリストを解析し,テキスト・ビデオ生成のための新しいプロンプトリストを作成する。
次に、視覚的品質、コンテンツ品質、動作品質、テキストキャプションアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - JourneyDB: A Benchmark for Generative Image Understanding [89.02046606392382]
生成画像の領域に適合する包括的データセットであるJourneyDBを導入する。
精巧にキュレートされたデータセットは、400万の異なる高品質な画像で構成されています。
本データセットでは,生成した画像の理解性能を評価するための4つのベンチマークを考案した。
論文 参考訳(メタデータ) (2023-07-03T02:39:08Z) - VLG: General Video Recognition with Web Textual Knowledge [47.3660792813967]
我々は、統合されたフレームワーク内で異なる認識タスクを解くための一般的なビデオ認識(GVR)問題に焦点を当てる。
インターネットからクロールされたノイズの多いテキスト記述から意味知識を活用することで、統合視覚言語フレームワーク(VLG)を提案する。
我々のVLGは、まずビデオと言語データセットで事前訓練され、共有機能空間を学習し、それからフレキシブルなバイモーダルなアテンションヘッドを考案し、異なる設定下でハイレベルなセマンティックな概念を協調します。
論文 参考訳(メタデータ) (2022-12-03T15:46:49Z) - Make It Move: Controllable Image-to-Video Generation with Text
Descriptions [69.52360725356601]
TI2Vタスクは、静的画像とテキスト記述からビデオを生成することを目的としている。
これらの課題に対処するために,革新的なアンカー構造を持つモーションアンカー型ビデオGEnerator (MAGE) を提案する。
データセットで行った実験は、MAGEの有効性を検証するとともに、TI2Vタスクの魅力を示す。
論文 参考訳(メタデータ) (2021-12-06T07:00:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。