論文の概要: AIGCBench: Comprehensive Evaluation of Image-to-Video Content Generated
by AI
- arxiv url: http://arxiv.org/abs/2401.01651v1
- Date: Wed, 3 Jan 2024 10:08:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 14:20:10.746663
- Title: AIGCBench: Comprehensive Evaluation of Image-to-Video Content Generated
by AI
- Title(参考訳): AIGCBench: AIが生成した画像間コンテンツの総合評価
- Authors: Fanda Fan, Chunjie Luo, Jianfeng Zhan, Wanling Gao
- Abstract要約: 本稿では,様々なビデオ生成タスクを評価するために設計された,包括的でスケーラブルなベンチマークであるAIGCBenchを紹介する。
等価条件下で異なる最先端アルゴリズムを評価する可変かつオープンドメインの画像テキストデータセットを使用する。
我々は、リッチテキストプロンプトを作成するために、新しいテキストコンバインダーとGPT-4を使用し、高度なテキスト・ツー・イメージモデルを用いて画像を生成する。
- 参考スコア(独自算出の注目度): 1.1035305628305816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The burgeoning field of Artificial Intelligence Generated Content (AIGC) is
witnessing rapid advancements, particularly in video generation. This paper
introduces AIGCBench, a pioneering comprehensive and scalable benchmark
designed to evaluate a variety of video generation tasks, with a primary focus
on Image-to-Video (I2V) generation. AIGCBench tackles the limitations of
existing benchmarks, which suffer from a lack of diverse datasets, by including
a varied and open-domain image-text dataset that evaluates different
state-of-the-art algorithms under equivalent conditions. We employ a novel text
combiner and GPT-4 to create rich text prompts, which are then used to generate
images via advanced Text-to-Image models. To establish a unified evaluation
framework for video generation tasks, our benchmark includes 11 metrics
spanning four dimensions to assess algorithm performance. These dimensions are
control-video alignment, motion effects, temporal consistency, and video
quality. These metrics are both reference video-dependent and video-free,
ensuring a comprehensive evaluation strategy. The evaluation standard proposed
correlates well with human judgment, providing insights into the strengths and
weaknesses of current I2V algorithms. The findings from our extensive
experiments aim to stimulate further research and development in the I2V field.
AIGCBench represents a significant step toward creating standardized benchmarks
for the broader AIGC landscape, proposing an adaptable and equitable framework
for future assessments of video generation tasks.
- Abstract(参考訳): 人工知能生成コンテンツ(AIGC)の急成長する分野は、特にビデオ生成において急速に進歩している。
本稿では,画像対ビデオ(i2v)生成に重点を置き,様々な映像生成タスクを評価するための総合的・スケーラブルなベンチマークであるaigcbenchについて述べる。
AIGCBenchは、同等条件下で異なる最先端アルゴリズムを評価するさまざまなオープンドメインの画像テキストデータセットを含めることで、多様なデータセットの不足に悩まされる既存のベンチマークの制限に取り組む。
我々は、リッチテキストプロンプトを作成するために、新しいテキストコンバインダーとGPT-4を使用し、高度なテキスト・ツー・イメージモデルを用いて画像を生成する。
ビデオ生成タスクの統一評価フレームワークを確立するため,ベンチマークでは,アルゴリズムの性能を評価するために,4次元にまたがる11のメトリクスを含む。
これらの次元は、制御ビデオアライメント、モーションエフェクト、時間的一貫性、ビデオ品質である。
これらの指標は、参照ビデオ依存とビデオフリーの両方であり、包括的な評価戦略を確実にする。
提案した評価基準は人間の判断とよく相関し、現在のI2Vアルゴリズムの強みと弱みに関する洞察を提供する。
本研究はI2V分野におけるさらなる研究・開発を促進することを目的としている。
AIGCBenchは、より広範なAIGCランドスケープのための標準化されたベンチマークを作成するための重要なステップであり、ビデオ生成タスクの将来の評価に適応可能で公平なフレームワークを提案する。
関連論文リスト
- VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models [111.5892290894904]
VBenchは、"ビデオ生成品質"を特定の、階層的、そして非絡み合ったディメンションに分解するベンチマークスイートである。
我々は、人間の知覚とベンチマークの整合性を検証するために、人間の嗜好アノテーションのデータセットを提供する。
VBench++は、テキスト・トゥ・ビデオと画像・トゥ・ビデオの評価をサポートする。
論文 参考訳(メタデータ) (2024-11-20T17:54:41Z) - Benchmarking AIGC Video Quality Assessment: A Dataset and Unified Model [54.69882562863726]
主観的および客観的品質評価の観点からAIGC-VQA問題を体系的に検討する。
我々は,空間的品質,時間的品質,テキスト・ツー・ビデオアライメントの3次元から,AIGCビデオの知覚品質を評価する。
本稿では,AIGCビデオの品質を包括的かつ正確に評価するUnify Generated Video Quality Assessment (UGVQ)モデルを提案する。
論文 参考訳(メタデータ) (2024-07-31T07:54:26Z) - T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation [55.57459883629706]
コンポジションテキスト・ビデオ生成に関する最初の体系的研究を行う。
合成テキスト・ビデオ生成に適した最初のベンチマークであるT2V-CompBenchを提案する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - TC-Bench: Benchmarking Temporal Compositionality in Text-to-Video and Image-to-Video Generation [97.96178992465511]
生成したビデオは、新しい概念の出現と、時間経過とともに現実の動画のようにそれらの関係の遷移を取り入れるべきである、と我々は主張する。
ビデオ生成モデルの時間構成性を評価するため,細部まで作り上げたテキストプロンプトのベンチマークであるTC-Benchと,それに対応する地上の真理ビデオ,ロバストな評価指標を提案する。
論文 参考訳(メタデータ) (2024-06-12T21:41:32Z) - Exploring AIGC Video Quality: A Focus on Visual Harmony, Video-Text Consistency and Domain Distribution Gap [4.922783970210658]
我々は,AIGC映像品質の評価を,視覚調和,映像テキストの整合性,領域分布ギャップの3次元に分類した。
各次元に対して、AIGCビデオの総合的な品質評価を提供するための特定のモジュールを設計する。
本研究は,異なるテキスト・ツー・ビデオ・モデルにより生成される映像の視覚的品質,流動性,スタイルの有意な変化を明らかにする。
論文 参考訳(メタデータ) (2024-04-21T08:27:20Z) - Towards A Better Metric for Text-to-Video Generation [102.16250512265995]
生成モデルは高品質のテキスト、画像、ビデオの合成において顕著な能力を示した。
新たな評価パイプラインであるText-to-Video Score(T2VScore)を導入する。
本尺度は,(1)テキスト記述における映像の忠実度を精査するテキスト・ビデオ・アライメント,(2)ビデオ品質,(2)ビデオ全体の製作口径を専門家の混合で評価するビデオ品質の2つの重要な基準を統合した。
論文 参考訳(メタデータ) (2024-01-15T15:42:39Z) - VLG: General Video Recognition with Web Textual Knowledge [47.3660792813967]
我々は、統合されたフレームワーク内で異なる認識タスクを解くための一般的なビデオ認識(GVR)問題に焦点を当てる。
インターネットからクロールされたノイズの多いテキスト記述から意味知識を活用することで、統合視覚言語フレームワーク(VLG)を提案する。
我々のVLGは、まずビデオと言語データセットで事前訓練され、共有機能空間を学習し、それからフレキシブルなバイモーダルなアテンションヘッドを考案し、異なる設定下でハイレベルなセマンティックな概念を協調します。
論文 参考訳(メタデータ) (2022-12-03T15:46:49Z) - Make It Move: Controllable Image-to-Video Generation with Text
Descriptions [69.52360725356601]
TI2Vタスクは、静的画像とテキスト記述からビデオを生成することを目的としている。
これらの課題に対処するために,革新的なアンカー構造を持つモーションアンカー型ビデオGEnerator (MAGE) を提案する。
データセットで行った実験は、MAGEの有効性を検証するとともに、TI2Vタスクの魅力を示す。
論文 参考訳(メタデータ) (2021-12-06T07:00:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。