論文の概要: Echo-4o: Harnessing the Power of GPT-4o Synthetic Images for Improved Image Generation
- arxiv url: http://arxiv.org/abs/2508.09987v1
- Date: Wed, 13 Aug 2025 17:59:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.990965
- Title: Echo-4o: Harnessing the Power of GPT-4o Synthetic Images for Improved Image Generation
- Title(参考訳): Echo-4o:改良された画像生成のためのGPT-4o合成画像のパワーを損なう
- Authors: Junyan Ye, Dongzhi Jiang, Zihao Wang, Leqi Zhu, Zhenghao Hu, Zilong Huang, Jun He, Zhiyuan Yan, Jinghua Yu, Hongsheng Li, Conghui He, Weijia Li,
- Abstract要約: GPT-4oは、画像生成における強力なパフォーマンスに対して大きな注目を集めているが、オープンソースモデルはいまだに遅れを取っている。
GPT-4oによって生成された180Kスケールの合成データセットであるEcho-4o-Imageを紹介する。
- 参考スコア(独自算出の注目度): 45.113322731299476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, GPT-4o has garnered significant attention for its strong performance in image generation, yet open-source models still lag behind. Several studies have explored distilling image data from GPT-4o to enhance open-source models, achieving notable progress. However, a key question remains: given that real-world image datasets already constitute a natural source of high-quality data, why should we use GPT-4o-generated synthetic data? In this work, we identify two key advantages of synthetic images. First, they can complement rare scenarios in real-world datasets, such as surreal fantasy or multi-reference image generation, which frequently occur in user queries. Second, they provide clean and controllable supervision. Real-world data often contains complex background noise and inherent misalignment between text descriptions and image content, whereas synthetic images offer pure backgrounds and long-tailed supervision signals, facilitating more accurate text-to-image alignment. Building on these insights, we introduce Echo-4o-Image, a 180K-scale synthetic dataset generated by GPT-4o, harnessing the power of synthetic image data to address blind spots in real-world coverage. Using this dataset, we fine-tune the unified multimodal generation baseline Bagel to obtain Echo-4o. In addition, we propose two new evaluation benchmarks for a more accurate and challenging assessment of image generation capabilities: GenEval++, which increases instruction complexity to mitigate score saturation, and Imagine-Bench, which focuses on evaluating both the understanding and generation of imaginative content. Echo-4o demonstrates strong performance across standard benchmarks. Moreover, applying Echo-4o-Image to other foundation models (e.g., OmniGen2, BLIP3-o) yields consistent performance gains across multiple metrics, highlighting the datasets strong transferability.
- Abstract(参考訳): 近年、GPT-4oは画像生成における強力な性能で大きな注目を集めているが、オープンソースモデルはいまだに遅れを取っている。
いくつかの研究では、GPT-4oから画像データを抽出してオープンソースモデルを強化し、顕著な進歩を遂げている。
しかし、重要な疑問が残る: 実世界の画像データセットが既に高品質なデータの天然資源となっていることを考えると、なぜGPT-4o生成合成データを使うべきか?
本研究では,合成画像の2つの重要な利点を同定する。
まず、ユーザークエリで頻繁に発生する超現実的ファンタジーやマルチ参照画像生成など、現実世界のデータセットで稀なシナリオを補完することができる。
第2に、クリーンでコントロール可能な監視を提供する。
実世界のデータは、しばしば複雑な背景ノイズと、テキスト記述と画像内容の固有の不一致を含むが、合成画像は純粋な背景と長い尾の監視信号を提供し、より正確なテキストと画像のアライメントを促進する。
これらの知見に基づいて,GPT-4oが生成した180Kスケールの合成データセットであるEcho-4o-Imageを紹介した。
このデータセットを用いて、統一されたマルチモーダル生成ベースラインBagelを微調整し、Echo-4oを得る。
さらに、より正確で困難な画像生成能力の評価を行うための2つの新しい評価ベンチマークを提案する。GenEval++は、スコア飽和を軽減するために命令の複雑さを増大させ、Imagine-Benchは、想像的コンテンツの理解と生成の両方に焦点をあてる。
Echo-4oは標準ベンチマークで強いパフォーマンスを示している。
さらに、Echo-4o-Imageを他の基盤モデル(例えば、OmniGen2、BLIP3-o)に適用すると、複数のメトリクス間で一貫したパフォーマンス向上が得られ、データセットの強い転送可能性を強調します。
関連論文リスト
- LoFT: LoRA-fused Training Dataset Generation with Few-shot Guidance [96.6544564242316]
本稿では,Few-shot Guidanceを用いたLoRA-Fused Training-data Generationという新しいデータセット生成フレームワークを提案する。
提案手法は,個々の実画像にLoRA重みを微調整し,推定時に融合させ,実画像の特徴を組み合わせた合成画像を生成し,データの多様性と忠実度を向上させる。
実験の結果,LoFT生成データに対するトレーニングは,他の合成データセット法より一貫して優れており,データセットのサイズが大きくなるにつれて精度が著しく向上することがわかった。
論文 参考訳(メタデータ) (2025-05-16T21:17:55Z) - An Empirical Study of GPT-4o Image Generation Capabilities [40.86026243294732]
我々は、GPT-4oの画像生成能力について実証的研究を行い、主要なオープンソースおよび商用モデルと比較した。
本分析では, GPT-4oの強度と限界を様々な条件下で強調し, GPT-4oを生成モデリングのより広範な進化に導いてくれる。
論文 参考訳(メタデータ) (2025-04-08T12:34:36Z) - GPT-ImgEval: A Comprehensive Benchmark for Diagnosing GPT4o in Image Generation [28.235805447825896]
OpenAIのGPT4oモデルは、画像生成と編集において驚くほど優れた機能を示している。
本報告では、GPT-ImgEvalというファーストルック評価ベンチマークについて述べる。
GPT-4oの性能は,生成品質,(2)編集能力,(3)世界知識インフォームド合成の3つの重要な側面にまたがっている。
論文 参考訳(メタデータ) (2025-04-03T17:23:16Z) - CO-SPY: Combining Semantic and Pixel Features to Detect Synthetic Images by AI [58.35348718345307]
実際の画像とAI生成画像を区別する現在の取り組みには、一般化が欠如している可能性がある。
既存のセマンティック機能を強化した新しいフレームワークCo-Spyを提案する。
また、5つの実画像データセットと22の最先端生成モデルからなる包括的データセットであるCo-Spy-Benchを作成します。
論文 参考訳(メタデータ) (2025-03-24T01:59:29Z) - LEGION: Learning to Ground and Explain for Synthetic Image Detection [49.958951540410816]
提案するSynthScarsは,12,236個の完全合成画像からなる高品質で多様なデータセットである。
4つの異なる画像コンテンツタイプ、3つのアーティファクトカテゴリ、ピクセルレベルのセグメンテーション、詳細なテキスト説明、アーティファクトカテゴリラベルを含んでいる。
人工物の検出,分割,説明を統合するマルチモーダル大規模言語モデル(MLLM)に基づく画像偽造解析フレームワークであるLEGIONを提案する。
論文 参考訳(メタデータ) (2025-03-19T14:37:21Z) - Learning from Synthetic Data for Visual Grounding [55.21937116752679]
そこで本研究では,SynGroundが市販のビジョン・アンド・ランゲージモデルのローカライズ能力を向上できることを示す。
SynGroundで生成されたデータは、事前訓練されたALBEFモデルとBLIPモデルのポインティングゲーム精度をそれぞれ4.81%、絶対パーセンテージポイント17.11%向上させる。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - DeepArt: A Benchmark to Advance Fidelity Research in AI-Generated
Content [9.482738088610535]
本稿では,マルチモーダル大言語モデルであるGPT-4の画像合成機能について検討する。
GPT-4で生成した画像のテクスチャ特性の忠実度を評価するためのベンチマークを,手作業で描いた絵とそのAI生成画像から作成する。
我々は手動描画と対応するGPT-4生成画像のユニークなベンチマークをコンパイルし、AI生成コンテンツにおける忠実度研究を促進するための新しいタスクを導入した。
論文 参考訳(メタデータ) (2023-12-16T10:17:09Z) - Is synthetic data from generative models ready for image recognition? [69.42645602062024]
本研究では,最新のテキスト・画像生成モデルから生成した合成画像が,画像認識タスクにどのように利用できるかを検討した。
本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。
論文 参考訳(メタデータ) (2022-10-14T06:54:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。