論文の概要: OpenGPT-4o-Image: A Comprehensive Dataset for Advanced Image Generation and Editing
- arxiv url: http://arxiv.org/abs/2509.24900v1
- Date: Mon, 29 Sep 2025 15:11:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.079422
- Title: OpenGPT-4o-Image: A Comprehensive Dataset for Advanced Image Generation and Editing
- Title(参考訳): OpenGPT-4o-Image: 高度な画像生成と編集のための総合データセット
- Authors: Zhihong Chen, Xuehai Bai, Yang Shi, Chaoyou Fu, Huanyu Zhang, Haotian Wang, Xiaoyan Sun, Zhang Zhang, Liang Wang, Yuanxing Zhang, Pengfei Wan, Yi-Fan Zhang,
- Abstract要約: 本稿では,新しい手法を用いて構築した大規模データセットOpenGPT-4o-Imageを紹介する。
制御された多様性を持つ80kの高品質な命令イメージペアを生成し、11の主要ドメインと51のサブタスクをカバーする。
私たちの研究は、マルチモーダルAI能力を前進させる上で、システマティックなデータ構築が鍵であることを実証しています。
- 参考スコア(独自算出の注目度): 45.539561363519844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of unified multimodal models for image generation and editing is fundamentally constrained by the quality and comprehensiveness of their training data. While existing datasets have covered basic tasks like style transfer and simple object manipulation, they often lack the systematic structure and challenging scenarios required for real-world applications. To address this bottleneck, we introduce OpenGPT-4o-Image, a large-scale dataset constructed using a novel methodology that combines hierarchical task taxonomy with automated data generation. Our taxonomy not only includes fundamental capabilities such as text rendering and style control but also introduces highly practical yet challenging categories like scientific imagery for chemistry illustrations and complex instruction editing requiring simultaneous execution of multiple operations. Through an automated pipeline leveraging structured resource pools and GPT-4o, we generate 80k high-quality instruction-image pairs with controlled diversity, covering 11 major domains and 51 subtasks. Extensive experiments show that fine-tuning leading models on our dataset achieves significant performance gains across multiple benchmarks, with improvements of up to 18\% on editing tasks (UniWorld-V1 on ImgEdit-Bench) and 13% on generation tasks (Harmon on GenEval). Our work demonstrates that systematic data construction is key to advancing multimodal AI capabilities.
- Abstract(参考訳): 画像生成と編集のための統合マルチモーダルモデルの性能は、トレーニングデータの質と包括性によって根本的に制約される。
既存のデータセットはスタイル転送やシンプルなオブジェクト操作といった基本的なタスクをカバーしているが、現実のアプリケーションに必要な体系的な構造や難解なシナリオを欠いていることが多い。
このボトルネックに対処するために、階層的なタスク分類と自動データ生成を組み合わせた新しい手法を用いて構築された大規模データセットOpenGPT-4o-Imageを導入する。
我々の分類学は、テキストレンダリングやスタイル制御といった基本的な機能だけでなく、化学イラストの科学画像や、複数の操作の同時実行を必要とする複雑な命令編集といった、非常に実用的で困難なカテゴリも導入している。
構造化リソースプールとGPT-4oを活用する自動パイプラインにより、11のドメインと51のサブタスクをカバーする、制御された多様性を持つ80kの高品質な命令イメージペアを生成する。
大規模な実験により、我々のデータセット上での微調整によるリードモデルは、編集タスク(ImgEdit-BenchではUniWorld-V1)と生成タスク(GenEvalではHarmon)で最大18%改善され、複数のベンチマークで大幅なパフォーマンス向上を実現した。
私たちの研究は、マルチモーダルAI能力を前進させる上で、システマティックなデータ構築が鍵であることを実証しています。
関連論文リスト
- $\texttt{Complex-Edit}$: CoT-Like Instruction Generation for Complexity-Controllable Image Editing Benchmark [36.58090024531738]
我々は、命令ベースの画像編集モデルを評価するために設計された包括的なベンチマークである$ttexttComplex-Edit$を紹介した。
我々は GPT-4o を利用して,様々な編集命令を大規模に収集する。
本稿では,VLMに基づく自動評価パイプラインとともに,編集性能のさまざまな側面を評価するための指標について紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:51:59Z) - TaskGalaxy: Scaling Multi-modal Instruction Fine-tuning with Tens of Thousands Vision Task Types [8.755996117965571]
マルチモーダルビジュアル言語モデルは、モデルアーキテクチャの進歩、トレーニング技術、高品質なデータによって推進され、オープンワールドのアプリケーションで注目を集めている。
微調整データセットにおけるタスクの多様性を高めるための既存の取り組みは、手作業ラベリングの労働集約的なプロセスによって妨げられている。
本研究では,19,227の階層型タスクタイプと413,648のサンプルからなる大規模マルチモーダル命令微調整データセットであるTaskGalaxyを提案する。
論文 参考訳(メタデータ) (2025-02-14T05:32:46Z) - MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。
MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。
提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2024-09-09T17:44:00Z) - CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation [51.2289822267563]
本稿では,実行すべきタスクを実演する少数のユーザ記述型少数ショットを前提として,合成データセットを生成する手法を提案する。
我々は, CRAFTが生物, 医学, 常識質問応答(QA)の4つのタスクに対して, 大規模タスク特化学習データセットを効率的に生成できることを実証した。
実験の結果, CRAFT を用いたモデルでは, 一般 LLM をQA タスクで上回ったり, 一致させたりしていることがわかった。
論文 参考訳(メタデータ) (2024-09-03T17:54:40Z) - Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator [63.762209407570715]
Genixerは4つの重要なステップからなる包括的なデータ生成パイプラインである。
LLaVA1.5でトレーニングされた合成VQAライクなデータセットは、12のマルチモーダルベンチマークのうち10のパフォーマンスを向上させる。
タスク固有のデータセットで訓練されたMLLMは、複雑な命令チューニングデータを生成する際に、GPT-4Vを超えることができる。
論文 参考訳(メタデータ) (2023-12-11T09:44:41Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。