論文の概要: IMAGINE-E: Image Generation Intelligence Evaluation of State-of-the-art Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2501.13920v1
- Date: Thu, 23 Jan 2025 18:58:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:59:46.242795
- Title: IMAGINE-E: Image Generation Intelligence Evaluation of State-of-the-art Text-to-Image Models
- Title(参考訳): IMAGINE-E:最新テクスチャ・トゥ・イメージモデルの画像生成インテリジェンス評価
- Authors: Jiayi Lei, Renrui Zhang, Xiangfei Hu, Weifeng Lin, Zhen Li, Wenjian Sun, Ruoyi Du, Le Zhuo, Zhongyu Li, Xinyue Li, Shitian Zhao, Ziyu Guo, Yiting Lu, Peng Gao, Hongsheng Li,
- Abstract要約: テキスト・トゥ・イメージ(T2I)モデルは非常に進歩しており、プロンプト追従と画像生成における印象的な能力を示している。
FLUX.1やIdeogram2.0といった最近のモデルでは、様々な複雑なタスクにおいて例外的な性能を示している。
本研究は,T2Iモデルが汎用ユーザビリティに進化する過程における現状と今後の軌道に関する貴重な知見を提供する。
- 参考スコア(独自算出の注目度): 52.73820275861131
- License:
- Abstract: With the rapid development of diffusion models, text-to-image(T2I) models have made significant progress, showcasing impressive abilities in prompt following and image generation. Recently launched models such as FLUX.1 and Ideogram2.0, along with others like Dall-E3 and Stable Diffusion 3, have demonstrated exceptional performance across various complex tasks, raising questions about whether T2I models are moving towards general-purpose applicability. Beyond traditional image generation, these models exhibit capabilities across a range of fields, including controllable generation, image editing, video, audio, 3D, and motion generation, as well as computer vision tasks like semantic segmentation and depth estimation. However, current evaluation frameworks are insufficient to comprehensively assess these models' performance across expanding domains. To thoroughly evaluate these models, we developed the IMAGINE-E and tested six prominent models: FLUX.1, Ideogram2.0, Midjourney, Dall-E3, Stable Diffusion 3, and Jimeng. Our evaluation is divided into five key domains: structured output generation, realism, and physical consistency, specific domain generation, challenging scenario generation, and multi-style creation tasks. This comprehensive assessment highlights each model's strengths and limitations, particularly the outstanding performance of FLUX.1 and Ideogram2.0 in structured and specific domain tasks, underscoring the expanding applications and potential of T2I models as foundational AI tools. This study provides valuable insights into the current state and future trajectory of T2I models as they evolve towards general-purpose usability. Evaluation scripts will be released at https://github.com/jylei16/Imagine-e.
- Abstract(参考訳): 拡散モデルの急速な発展に伴い、テキスト・トゥ・イメージ(T2I)モデルは大きな進歩を遂げ、迅速な追従と画像生成における印象的な能力を示している。
近年,FLUX.1 や Ideogram2.0 などのモデルや Dall-E3 や Stable Diffusion 3 などのモデルでは,様々な複雑なタスクに対して例外的な性能を示し,T2I モデルが汎用的な適用性に向かって進んでいるかどうかという疑問が提起されている。
従来の画像生成以外にも、これらのモデルには、制御可能な生成、画像編集、ビデオ、オーディオ、3D、モーション生成、セマンティックセグメンテーションや深さ推定といったコンピュータビジョンタスクなど、さまざまな分野の機能が備わっている。
しかし、現在の評価フレームワークは、拡張ドメイン全体でこれらのモデルの性能を包括的に評価するには不十分である。
これらのモデルを徹底的に評価するために、IMAGINE-Eを開発し、FLUX.1、Ideogram2.0、Midjourney、Dall-E3、Stable Diffusion 3、Jimengの6つの著名なモデルを試験した。
評価は, 構造化出力生成, リアリズム, 物理整合性, 特定のドメイン生成, 挑戦シナリオ生成, マルチスタイル生成タスクの5つの重要な領域に分けられる。
この包括的な評価は、各モデルの強みと制限、特に構造化された特定のドメインタスクにおけるFLUX.1とIdeogram2.0の卓越したパフォーマンスを強調し、基礎的なAIツールとしてのT2Iモデルの拡大と可能性を強調している。
本研究は,T2Iモデルが汎用ユーザビリティに進化する過程における現状と今後の軌道に関する貴重な知見を提供する。
評価スクリプトはhttps://github.com/jylei16/Imagine-e.comでリリースされる。
関連論文リスト
- Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。
我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。
また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:52:43Z) - Diffusion Beats Autoregressive: An Evaluation of Compositional Generation in Text-to-Image Models [3.5999252362400993]
テキスト・ツー・イメージ(T2I)生成モデルは、高品質でリアルで自然な画像を生成するのに顕著な熟練性を示している。
オープンソースの拡散に基づく新しいT2IモデルFLUXが導入された。
本稿では,T2I-CompBenchベンチマークを用いて,新たに導入されたモデルに対して構成生成能力を評価する。
論文 参考訳(メタデータ) (2024-10-30T07:43:29Z) - Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes [65.22070581594426]
Implicit-Zoo"は、この分野の研究と開発を容易にするために、数千のGPUトレーニング日を必要とする大規模なデータセットである。
1)トランスモデルのトークン位置を学習すること、(2)NeRFモデルに関して直接3Dカメラが2D画像のポーズを取ること、である。
これにより、画像分類、セマンティックセグメンテーション、および3次元ポーズ回帰の3つのタスクすべてのパフォーマンスが向上し、研究のための新たな道が開けることになる。
論文 参考訳(メタデータ) (2024-06-25T10:20:44Z) - PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models [50.33699462106502]
テキスト・トゥ・イメージ(T2I)モデルは、物理コモンセンスと整合した画像を生成するのにしばしば失敗する。
現在のT2I評価ベンチマークは、精度、バイアス、安全性などの指標に焦点を当て、モデルの内部知識の評価を無視している。
メカニクス,光学,熱力学,材料特性の4つのカテゴリに700のプロンプトを含む総合的なT2I評価データセットであるPhyBenchを紹介する。
論文 参考訳(メタデータ) (2024-06-17T17:49:01Z) - Playground v2.5: Three Insights towards Enhancing Aesthetic Quality in
Text-to-Image Generation [3.976813869450304]
色とコントラストの強化、複数アスペクト比での生成の改善、人中心の細部の改善に重点を置いている。
われわれのモデルはオープンソースであり、Playground v2.5の開発は、拡散型画像生成モデルの美的品質を高めることを目的とした研究者に貴重なガイドラインを提供することを期待している。
論文 参考訳(メタデータ) (2024-02-27T06:31:52Z) - Breathing New Life into 3D Assets with Generative Repainting [74.80184575267106]
拡散ベースのテキスト・ツー・イメージ・モデルは、ビジョン・コミュニティ、アーティスト、コンテンツ・クリエーターから大きな注目を集めた。
近年の研究では、拡散モデルとニューラルネットワークの絡み合いを利用した様々なパイプラインが提案されている。
予備訓練された2次元拡散モデルと標準3次元ニューラルラジアンスフィールドのパワーを独立したスタンドアロンツールとして検討する。
我々のパイプラインはテクスチャ化されたメッシュや無テクスチャのメッシュのような、レガシなレンダリング可能な幾何学を受け入れ、2D生成の洗練と3D整合性強化ツール間の相互作用をオーケストレーションします。
論文 参考訳(メタデータ) (2023-09-15T16:34:51Z) - Visual Programming for Text-to-Image Generation and Evaluation [73.12069620086311]
テキスト・トゥ・イメージ(T2I)生成と評価のための2つの新しい解釈可能・説明可能なビジュアル・プログラミング・フレームワークを提案する。
まず,T2I生成をオブジェクト/カウント生成,レイアウト生成,画像生成という3つのステップに分解する,解釈可能なステップバイステップT2I生成フレームワークであるVPGenを紹介する。
第2に、視覚プログラミングに基づくT2I生成のための解釈可能かつ説明可能な評価フレームワークであるVPEvalを紹介する。
論文 参考訳(メタデータ) (2023-05-24T16:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。