Fugu-MT 論文翻訳(概要): AIGCBench: Comprehensive Evaluation of Image-to-Video Content Generated by AI

論文の概要: AIGCBench: Comprehensive Evaluation of Image-to-Video Content Generated by AI

arxiv url: http://arxiv.org/abs/2401.01651v3
Date: Tue, 23 Jan 2024 15:31:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-24 18:31:25.973773
Title: AIGCBench: Comprehensive Evaluation of Image-to-Video Content Generated by AI
Title（参考訳）: AIGCBench: AIが生成した画像間コンテンツの総合評価
Authors: Fanda Fan, Chunjie Luo, Wanling Gao, Jianfeng Zhan
Abstract要約: 本稿では,様々なビデオ生成タスクを評価するために設計された,先駆的な総合ベンチマークであるAIGCBenchを紹介する。等価条件下で異なる最先端アルゴリズムを評価する、多様なオープンドメインの画像テキストデータセット。我々は、リッチテキストプロンプトを作成するために、新しいテキストコンバインダーとGPT-4を使用し、高度なテキスト・ツー・イメージモデルを用いて画像を生成する。
参考スコア（独自算出の注目度）: 1.1035305628305816
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The burgeoning field of Artificial Intelligence Generated Content (AIGC) is witnessing rapid advancements, particularly in video generation. This paper introduces AIGCBench, a pioneering comprehensive and scalable benchmark designed to evaluate a variety of video generation tasks, with a primary focus on Image-to-Video (I2V) generation. AIGCBench tackles the limitations of existing benchmarks, which suffer from a lack of diverse datasets, by including a varied and open-domain image-text dataset that evaluates different state-of-the-art algorithms under equivalent conditions. We employ a novel text combiner and GPT-4 to create rich text prompts, which are then used to generate images via advanced Text-to-Image models. To establish a unified evaluation framework for video generation tasks, our benchmark includes 11 metrics spanning four dimensions to assess algorithm performance. These dimensions are control-video alignment, motion effects, temporal consistency, and video quality. These metrics are both reference video-dependent and video-free, ensuring a comprehensive evaluation strategy. The evaluation standard proposed correlates well with human judgment, providing insights into the strengths and weaknesses of current I2V algorithms. The findings from our extensive experiments aim to stimulate further research and development in the I2V field. AIGCBench represents a significant step toward creating standardized benchmarks for the broader AIGC landscape, proposing an adaptable and equitable framework for future assessments of video generation tasks. We have open-sourced the dataset and evaluation code on the project website: https://www.benchcouncil.org/AIGCBench.
Abstract（参考訳）: 人工知能生成コンテンツ(AIGC)の急成長する分野は、特にビデオ生成において急速に進歩している。本稿では,画像対ビデオ(i2v)生成に重点を置き,様々な映像生成タスクを評価するための総合的・スケーラブルなベンチマークであるaigcbenchについて述べる。 AIGCBenchは、同等条件下で異なる最先端アルゴリズムを評価するさまざまなオープンドメインの画像テキストデータセットを含めることで、多様なデータセットの不足に悩まされる既存のベンチマークの制限に取り組む。我々は、リッチテキストプロンプトを作成するために、新しいテキストコンバインダーとGPT-4を使用し、高度なテキスト・ツー・イメージモデルを用いて画像を生成する。ビデオ生成タスクの統一評価フレームワークを確立するため,ベンチマークでは,アルゴリズムの性能を評価するために,4次元にまたがる11のメトリクスを含む。これらの次元は、制御ビデオアライメント、モーションエフェクト、時間的一貫性、ビデオ品質である。これらの指標は、参照ビデオ依存とビデオフリーの両方であり、包括的な評価戦略を確実にする。提案した評価基準は人間の判断とよく相関し、現在のI2Vアルゴリズムの強みと弱みに関する洞察を提供する。本研究はI2V分野におけるさらなる研究・開発を促進することを目的としている。 AIGCBenchは、より広範なAIGCランドスケープのための標準化されたベンチマークを作成するための重要なステップであり、ビデオ生成タスクの将来の評価に適応可能で公平なフレームワークを提案する。私たちは、プロジェクトwebサイトでデータセットと評価コードをオープンソース化した。

関連論文リスト

ConsID-Gen: View-Consistent and Identity-Preserving Image-to-Video Generation [14.141157176094737]
画像対ビデオ生成(I2V)は、静的画像をテキスト命令に従って時間的に一貫性のあるビデオシーケンスに変換する。既存のI2Vパイプラインは、しばしば外観のドリフトと幾何学的歪みに悩まされる。本稿では、第1フレームを非表示の補助ビューで拡張するビュー支援I2V生成フレームワークであるConsID-Genを提案する。
論文参考訳（メタデータ） (2026-02-10T18:59:51Z)
RAG-IGBench: Innovative Evaluation for RAG-based Interleaved Generation in Open-domain Question Answering [50.42577862494645]
本稿では,RAG-IG(Retrieval-Augmented Generation)に基づくインターリーブドジェネレーション(Interleaved Generation)の課題を評価するためのベンチマークであるRAG-IGBenchを提案する。 RAG-IGは、MLLM(Multimodal large language model)と検索機構を統合し、モデルがコヒーレントなマルチモーダルコンテンツを生成するための外部画像テキスト情報にアクセスできるようにする。
論文参考訳（メタデータ） (2025-10-11T03:06:39Z)
UI2V-Bench: An Understanding-based Image-to-video Generation Benchmark [35.157850129371525]
I2V(Image-to-Video)の生成は、ビデオ合成の分野において重要な焦点となっている。既存の評価ベンチマークは主にビデオの品質や時間的一貫性といった側面に焦点を当てている。 We propose UI2V-Bench, a novel benchmark for evaluation I2V model with focus on semantic understanding and reasoning。
論文参考訳（メタデータ） (2025-09-29T08:14:26Z)
OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation [23.05106664412349]
テキスト・ツー・イメージ(T2I)モデルは、テキスト・プロンプトに整合した高品質な画像を生成する上で大きな注目を集めている。 OneIG-Benchは、T2Iモデルを複数の次元で評価するためのベンチマークフレームワークである。
論文参考訳（メタデータ） (2025-06-09T17:50:21Z)
VCapsBench: A Large-scale Fine-grained Benchmark for Video Caption Quality Evaluation [23.701884816475403]
ビデオキャプションは、テキストからビデオへの生成タスクにおいて重要な役割を果たす。既存のベンチマークでは、きめ細かい評価が不十分である。細粒度ビデオキャプション評価ベンチマーク(VCapsBench)を紹介する。
論文参考訳（メタデータ） (2025-05-29T14:34:25Z)
VidText: Towards Comprehensive Evaluation for Video Text Understanding [54.15328647518558]
VidTextは、ビデオテキスト理解の総合的かつ詳細な評価のためのベンチマークである。さまざまな現実世界のシナリオをカバーし、多言語コンテンツをサポートする。ビデオレベル、クリップレベル、インスタンスレベルのタスクを備えた階層的評価フレームワークを導入している。
論文参考訳（メタデータ） (2025-05-28T19:39:35Z)
AIGVE-Tool: AI-Generated Video Evaluation Toolkit with Multifaceted Benchmark [8.827755848017578]
既存のメトリクスには、方法論を体系的に分類するための統一されたフレームワークがない。 AI生成ビデオ評価のための構造化分類と評価パイプラインを提供する統合フレームワークであるAIGVE-Toolを紹介する。大規模なベンチマークデータセットは、手作りの指示とプロンプトに基づいて、5つのSOTAビデオ生成モデルで作成される。
論文参考訳（メタデータ） (2025-03-18T09:36:33Z)
VideoRAG: Retrieval-Augmented Generation with Extreme Long-Context Videos [25.770675590118547]
VideoRAGは、非常に長いコンテキストのビデオの処理と理解に特化して設計された最初の検索拡張生成フレームワークである。我々の中心となる革新は、(i)グラフベースのテキスト知識をシームレスに統合し、(ii)視覚的特徴を効率的に保存するマルチモーダルコンテキストエンコーディングである。
論文参考訳（メタデータ） (2025-02-03T17:30:19Z)
VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models [111.5892290894904]
VBenchは、"ビデオ生成品質"を特定の、階層的、そして非絡み合ったディメンションに分解するベンチマークスイートである。我々は、人間の知覚とベンチマークの整合性を検証するために、人間の嗜好アノテーションのデータセットを提供する。 VBench++は、テキスト・トゥ・ビデオと画像・トゥ・ビデオの評価をサポートする。
論文参考訳（メタデータ） (2024-11-20T17:54:41Z)
Benchmarking AIGC Video Quality Assessment: A Dataset and Unified Model [54.69882562863726]
主観的および客観的品質評価の観点からAIGC-VQA問題を体系的に検討する。我々は,空間的品質,時間的品質,テキスト・ツー・ビデオアライメントの3次元から,AIGCビデオの知覚品質を評価する。本稿では,AIGCビデオの品質を包括的かつ正確に評価するUnify Generated Video Quality Assessment (UGVQ)モデルを提案する。
論文参考訳（メタデータ） (2024-07-31T07:54:26Z)
T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation [55.57459883629706]
コンポジションテキスト・ビデオ生成に関する最初の体系的研究を行う。合成テキスト・ビデオ生成に適した最初のベンチマークであるT2V-CompBenchを提案する。
論文参考訳（メタデータ） (2024-07-19T17:58:36Z)
TC-Bench: Benchmarking Temporal Compositionality in Text-to-Video and Image-to-Video Generation [97.96178992465511]
生成したビデオは、新しい概念の出現と、時間経過とともに現実の動画のようにそれらの関係の遷移を取り入れるべきである、と我々は主張する。ビデオ生成モデルの時間構成性を評価するため,細部まで作り上げたテキストプロンプトのベンチマークであるTC-Benchと,それに対応する地上の真理ビデオ,ロバストな評価指標を提案する。
論文参考訳（メタデータ） (2024-06-12T21:41:32Z)
Exploring AIGC Video Quality: A Focus on Visual Harmony, Video-Text Consistency and Domain Distribution Gap [4.922783970210658]
我々は,AIGC映像品質の評価を,視覚調和,映像テキストの整合性,領域分布ギャップの3次元に分類した。各次元に対して、AIGCビデオの総合的な品質評価を提供するための特定のモジュールを設計する。本研究は,異なるテキスト・ツー・ビデオ・モデルにより生成される映像の視覚的品質,流動性,スタイルの有意な変化を明らかにする。
論文参考訳（メタデータ） (2024-04-21T08:27:20Z)
Towards A Better Metric for Text-to-Video Generation [102.16250512265995]
生成モデルは高品質のテキスト、画像、ビデオの合成において顕著な能力を示した。新たな評価パイプラインであるText-to-Video Score(T2VScore)を導入する。本尺度は,(1)テキスト記述における映像の忠実度を精査するテキスト・ビデオ・アライメント,(2)ビデオ品質,(2)ビデオ全体の製作口径を専門家の混合で評価するビデオ品質の2つの重要な基準を統合した。
論文参考訳（メタデータ） (2024-01-15T15:42:39Z)
VLG: General Video Recognition with Web Textual Knowledge [47.3660792813967]
我々は、統合されたフレームワーク内で異なる認識タスクを解くための一般的なビデオ認識(GVR)問題に焦点を当てる。インターネットからクロールされたノイズの多いテキスト記述から意味知識を活用することで、統合視覚言語フレームワーク(VLG)を提案する。我々のVLGは、まずビデオと言語データセットで事前訓練され、共有機能空間を学習し、それからフレキシブルなバイモーダルなアテンションヘッドを考案し、異なる設定下でハイレベルなセマンティックな概念を協調します。
論文参考訳（メタデータ） (2022-12-03T15:46:49Z)
Make It Move: Controllable Image-to-Video Generation with Text Descriptions [69.52360725356601]
TI2Vタスクは、静的画像とテキスト記述からビデオを生成することを目的としている。これらの課題に対処するために,革新的なアンカー構造を持つモーションアンカー型ビデオGEnerator (MAGE) を提案する。データセットで行った実験は、MAGEの有効性を検証するとともに、TI2Vタスクの魅力を示す。
論文参考訳（メタデータ） (2021-12-06T07:00:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。