論文の概要: GPT-IMAGE-EDIT-1.5M: A Million-Scale, GPT-Generated Image Dataset
- arxiv url: http://arxiv.org/abs/2507.21033v1
- Date: Mon, 28 Jul 2025 17:54:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:58.238993
- Title: GPT-IMAGE-EDIT-1.5M: A Million-Scale, GPT-Generated Image Dataset
- Title(参考訳): GPT-IMAGE-EDIT-1.5M:100万規模のGPT生成画像データセット
- Authors: Yuhan Wang, Siwei Yang, Bingchen Zhao, Letian Zhang, Qing Liu, Yuyin Zhou, Cihang Xie,
- Abstract要約: GPT-IMAGE-EDIT-1.5Mは、150万以上の高品質のトリプル(インストラクション、ソースイメージ、編集画像)を含む、一般公開された大規模画像編集コーパスである。
我々は、GPT-4oの汎用機能を活用して、OmniEdit、HQ-Edit、UltraEditという3つの一般的な画像編集データセットを統合し、洗練することで、このデータセットを構築する。
我々は,GPT-IMAGE-EDIT-1.5M上で,高度なオープンソースモデルを微調整した。
- 参考スコア(独自算出の注目度): 31.986549060226594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in large multimodal models like GPT-4o have set a new standard for high-fidelity, instruction-guided image editing. However, the proprietary nature of these models and their training data creates a significant barrier for open-source research. To bridge this gap, we introduce GPT-IMAGE-EDIT-1.5M, a publicly available, large-scale image-editing corpus containing more than 1.5 million high-quality triplets (instruction, source image, edited image). We systematically construct this dataset by leveraging the versatile capabilities of GPT-4o to unify and refine three popular image-editing datasets: OmniEdit, HQ-Edit, and UltraEdit. Specifically, our methodology involves 1) regenerating output images to enhance visual quality and instruction alignment, and 2) selectively rewriting prompts to improve semantic clarity. To validate the efficacy of our dataset, we fine-tune advanced open-source models on GPT-IMAGE-EDIT-1.5M. The empirical results are exciting, e.g., the fine-tuned FluxKontext achieves highly competitive performance across a comprehensive suite of benchmarks, including 7.24 on GEdit-EN, 3.80 on ImgEdit-Full, and 8.78 on Complex-Edit, showing stronger instruction following and higher perceptual quality while maintaining identity. These scores markedly exceed all previously published open-source methods and substantially narrow the gap to leading proprietary models. We hope the full release of GPT-IMAGE-EDIT-1.5M can help to catalyze further open research in instruction-guided image editing.
- Abstract(参考訳): GPT-4oのような大規模マルチモーダルモデルの最近の進歩は、高忠実で命令誘導型画像編集のための新しい標準を確立している。
しかし、これらのモデルのプロプライエタリな性質とそのトレーニングデータによって、オープンソース研究にとって大きな障壁が生まれる。
GPT-IMAGE-EDIT-1.5Mは,150万以上の高品質なトリプル(インストラクション,ソースイメージ,編集画像)を含む大規模画像編集コーパスである。
我々は、GPT-4oの汎用機能を活用して、このデータセットを体系的に構築し、3つの人気のある画像編集データセット(OmniEdit、HQ-Edit、UltraEdit)を統合する。
特に我々の方法論は
1【視覚的品質と指示整合性を高めるための出力画像の再生】
2) 意味的明瞭度を改善するために, 選択的に書き直しを行う。
我々は,GPT-IMAGE-EDIT-1.5M上で,高度なオープンソースモデルを微調整した。
例えば、微調整されたFluxKontextは、GEdit-ENの7.24、ImgEdit-Fullの3.80、Complex-Editの8.78など、総合的なベンチマークスイートで高い競争力を発揮する。
これらのスコアは、以前公開されたすべてのオープンソースメソッドを大きく超え、主要なプロプライエタリなモデルとのギャップを著しく狭めている。
GPT-IMAGE-EDIT-1.5Mの完全なリリースは、インストラクション誘導画像編集におけるさらなるオープンな研究を促進するのに役立つと期待する。
関連論文リスト
- Step1X-Edit: A Practical Framework for General Image Editing [64.07202539610576]
我々は、Step1X-Editと呼ばれる最先端の画像編集モデルをリリースする。
GPT-4oやGemini2 Flashのようなクローズドソースモデルと同等のパフォーマンスを提供できる。
評価のために,実世界のユーザ指示に根ざした新しいベンチマークであるGEdit-Benchを開発した。
論文 参考訳(メタデータ) (2025-04-24T17:25:12Z) - AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea [88.79769371584491]
我々は、総合的なマルチモーダル命令編集データセットであるAnyEditを提示する。
我々は,AnyEditコレクションの多様性と品質を,初期データ多様性,適応編集プロセス,自動編集結果の選択という3つの側面を通じて保証する。
3つのベンチマークデータセットの実験によると、AnyEditは拡散ベースの編集モデルのパフォーマンスを一貫して向上させる。
論文 参考訳(メタデータ) (2024-11-24T07:02:56Z) - HQ-Edit: A High-Quality Dataset for Instruction-based Image Editing [38.13162627140172]
HQ-Editは、約20万の編集が可能な高品質な命令ベースの画像編集データセットである。
高品質を確実にするために、多様なサンプルはまずオンラインで収集され、拡張され、次に高品質なディプチチを作るために使用される。
HQ-Editは、細部が豊富で包括的な編集プロンプトを伴う高解像度の画像を編集し、既存の画像編集モデルの能力を大幅に強化する。
論文 参考訳(メタデータ) (2024-04-15T17:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。