論文の概要: GPT-IMAGE-EDIT-1.5M: A Million-Scale, GPT-Generated Image Dataset
- arxiv url: http://arxiv.org/abs/2507.21033v1
- Date: Mon, 28 Jul 2025 17:54:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:58.238993
- Title: GPT-IMAGE-EDIT-1.5M: A Million-Scale, GPT-Generated Image Dataset
- Title(参考訳): GPT-IMAGE-EDIT-1.5M:100万規模のGPT生成画像データセット
- Authors: Yuhan Wang, Siwei Yang, Bingchen Zhao, Letian Zhang, Qing Liu, Yuyin Zhou, Cihang Xie,
- Abstract要約: GPT-IMAGE-EDIT-1.5Mは、150万以上の高品質のトリプル(インストラクション、ソースイメージ、編集画像)を含む、一般公開された大規模画像編集コーパスである。
我々は、GPT-4oの汎用機能を活用して、OmniEdit、HQ-Edit、UltraEditという3つの一般的な画像編集データセットを統合し、洗練することで、このデータセットを構築する。
我々は,GPT-IMAGE-EDIT-1.5M上で,高度なオープンソースモデルを微調整した。
- 参考スコア(独自算出の注目度): 31.986549060226594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in large multimodal models like GPT-4o have set a new standard for high-fidelity, instruction-guided image editing. However, the proprietary nature of these models and their training data creates a significant barrier for open-source research. To bridge this gap, we introduce GPT-IMAGE-EDIT-1.5M, a publicly available, large-scale image-editing corpus containing more than 1.5 million high-quality triplets (instruction, source image, edited image). We systematically construct this dataset by leveraging the versatile capabilities of GPT-4o to unify and refine three popular image-editing datasets: OmniEdit, HQ-Edit, and UltraEdit. Specifically, our methodology involves 1) regenerating output images to enhance visual quality and instruction alignment, and 2) selectively rewriting prompts to improve semantic clarity. To validate the efficacy of our dataset, we fine-tune advanced open-source models on GPT-IMAGE-EDIT-1.5M. The empirical results are exciting, e.g., the fine-tuned FluxKontext achieves highly competitive performance across a comprehensive suite of benchmarks, including 7.24 on GEdit-EN, 3.80 on ImgEdit-Full, and 8.78 on Complex-Edit, showing stronger instruction following and higher perceptual quality while maintaining identity. These scores markedly exceed all previously published open-source methods and substantially narrow the gap to leading proprietary models. We hope the full release of GPT-IMAGE-EDIT-1.5M can help to catalyze further open research in instruction-guided image editing.
- Abstract(参考訳): GPT-4oのような大規模マルチモーダルモデルの最近の進歩は、高忠実で命令誘導型画像編集のための新しい標準を確立している。
しかし、これらのモデルのプロプライエタリな性質とそのトレーニングデータによって、オープンソース研究にとって大きな障壁が生まれる。
GPT-IMAGE-EDIT-1.5Mは,150万以上の高品質なトリプル(インストラクション,ソースイメージ,編集画像)を含む大規模画像編集コーパスである。
我々は、GPT-4oの汎用機能を活用して、このデータセットを体系的に構築し、3つの人気のある画像編集データセット(OmniEdit、HQ-Edit、UltraEdit)を統合する。
特に我々の方法論は
1【視覚的品質と指示整合性を高めるための出力画像の再生】
2) 意味的明瞭度を改善するために, 選択的に書き直しを行う。
我々は,GPT-IMAGE-EDIT-1.5M上で,高度なオープンソースモデルを微調整した。
例えば、微調整されたFluxKontextは、GEdit-ENの7.24、ImgEdit-Fullの3.80、Complex-Editの8.78など、総合的なベンチマークスイートで高い競争力を発揮する。
これらのスコアは、以前公開されたすべてのオープンソースメソッドを大きく超え、主要なプロプライエタリなモデルとのギャップを著しく狭めている。
GPT-IMAGE-EDIT-1.5Mの完全なリリースは、インストラクション誘導画像編集におけるさらなるオープンな研究を促進するのに役立つと期待する。
関連論文リスト
- LMM4Edit: Benchmarking and Evaluating Multimodal Image Editing with LMMs [76.57152007140475]
EBench-18Kは、18K編集画像を含む最初の大規模画像編集ベンチマークである。
EBench-18Kは、21タスクにわたる対応する編集プロンプトを備えた1,080のソースイメージと、17の最先端TIEモデルによって生成された18K+編集イメージと、3つの評価次元から評価された55K+平均評価スコア(MOS)と18K+質問回答(QA)ペアを含む。
そして,LMMに基づく画像編集モデル評価のためのLMM4Editを提案する。
論文 参考訳(メタデータ) (2025-07-22T03:11:07Z) - SeedEdit 3.0: Fast and High-Quality Generative Image Editing [29.062311145515967]
我々は,私たちのT2IモデルであるSeedream 3.0とともにSeedEdit 3.0を紹介します。
メタインフォパラダイムとメタインフォ埋め込み戦略を用いた拡張データキュレーションパイプラインを開発した。
テストベンチマークでSeedEdit 3.0を評価し、実/合成画像編集を行い、複数の面のトレードオフを最大限に達成し、56.1%のユーザビリティを実現した。
論文 参考訳(メタデータ) (2025-06-05T14:30:39Z) - ImgEdit: A Unified Image Editing Dataset and Benchmark [14.185771939071149]
大規模な画像編集データセットであるImgEditを紹介した。
ImgEditはタスクノベルティとデータ品質の両方で既存のデータセットを上回っている。
画像編集性能を評価するためのベンチマークであるImgEdit-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-26T17:53:33Z) - GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing [60.66800567924348]
テキスト誘導画像編集モデルを評価するための新しいベンチマークを導入する。
このベンチマークには、20種類のコンテンツカテゴリにわたる高品質な編集例が1000以上含まれている。
我々は、GPT-Image-1をいくつかの最先端編集モデルと比較する大規模な研究を行っている。
論文 参考訳(メタデータ) (2025-05-16T17:55:54Z) - Step1X-Edit: A Practical Framework for General Image Editing [64.07202539610576]
我々は、Step1X-Editと呼ばれる最先端の画像編集モデルをリリースする。
GPT-4oやGemini2 Flashのようなクローズドソースモデルと同等のパフォーマンスを提供できる。
評価のために,実世界のユーザ指示に根ざした新しいベンチマークであるGEdit-Benchを開発した。
論文 参考訳(メタデータ) (2025-04-24T17:25:12Z) - GPT-ImgEval: A Comprehensive Benchmark for Diagnosing GPT4o in Image Generation [28.235805447825896]
OpenAIのGPT4oモデルは、画像生成と編集において驚くほど優れた機能を示している。
本報告では、GPT-ImgEvalというファーストルック評価ベンチマークについて述べる。
GPT-4oの性能は,生成品質,(2)編集能力,(3)世界知識インフォームド合成の3つの重要な側面にまたがっている。
論文 参考訳(メタデータ) (2025-04-03T17:23:16Z) - AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea [88.79769371584491]
我々は、総合的なマルチモーダル命令編集データセットであるAnyEditを提示する。
我々は,AnyEditコレクションの多様性と品質を,初期データ多様性,適応編集プロセス,自動編集結果の選択という3つの側面を通じて保証する。
3つのベンチマークデータセットの実験によると、AnyEditは拡散ベースの編集モデルのパフォーマンスを一貫して向上させる。
論文 参考訳(メタデータ) (2024-11-24T07:02:56Z) - HQ-Edit: A High-Quality Dataset for Instruction-based Image Editing [38.13162627140172]
HQ-Editは、約20万の編集が可能な高品質な命令ベースの画像編集データセットである。
高品質を確実にするために、多様なサンプルはまずオンラインで収集され、拡張され、次に高品質なディプチチを作るために使用される。
HQ-Editは、細部が豊富で包括的な編集プロンプトを伴う高解像度の画像を編集し、既存の画像編集モデルの能力を大幅に強化する。
論文 参考訳(メタデータ) (2024-04-15T17:59:31Z) - Improving Zero-shot Generalization and Robustness of Multi-modal Models [70.14692320804178]
CLIPやLiTのようなマルチモーダルな画像テキストモデルは、画像分類ベンチマークで顕著な性能を示している。
本研究は,この性能差の原因を考察し,テキストプロンプトの曖昧さによる障害事例の多くが原因であることを示す。
本稿では,WordNet階層を用いて,不確実な画像の精度を向上させるための簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-12-04T07:26:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。