論文の概要: ImgEdit: A Unified Image Editing Dataset and Benchmark
- arxiv url: http://arxiv.org/abs/2505.20275v1
- Date: Mon, 26 May 2025 17:53:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 14:37:20.367951
- Title: ImgEdit: A Unified Image Editing Dataset and Benchmark
- Title(参考訳): ImgEdit: データセットとベンチマークを統一したイメージ編集
- Authors: Yang Ye, Xianyi He, Zongjian Li, Bin Lin, Shenghai Yuan, Zhiyuan Yan, Bohan Hou, Li Yuan,
- Abstract要約: 大規模な画像編集データセットであるImgEditを紹介した。
ImgEditはタスクノベルティとデータ品質の両方で既存のデータセットを上回っている。
画像編集性能を評価するためのベンチマークであるImgEdit-Benchを紹介する。
- 参考スコア(独自算出の注目度): 14.185771939071149
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in generative models have enabled high-fidelity text-to-image generation. However, open-source image-editing models still lag behind their proprietary counterparts, primarily due to limited high-quality data and insufficient benchmarks. To overcome these limitations, we introduce ImgEdit, a large-scale, high-quality image-editing dataset comprising 1.2 million carefully curated edit pairs, which contain both novel and complex single-turn edits, as well as challenging multi-turn tasks. To ensure the data quality, we employ a multi-stage pipeline that integrates a cutting-edge vision-language model, a detection model, a segmentation model, alongside task-specific in-painting procedures and strict post-processing. ImgEdit surpasses existing datasets in both task novelty and data quality. Using ImgEdit, we train ImgEdit-E1, an editing model using Vision Language Model to process the reference image and editing prompt, which outperforms existing open-source models on multiple tasks, highlighting the value of ImgEdit and model design. For comprehensive evaluation, we introduce ImgEdit-Bench, a benchmark designed to evaluate image editing performance in terms of instruction adherence, editing quality, and detail preservation. It includes a basic testsuite, a challenging single-turn suite, and a dedicated multi-turn suite. We evaluate both open-source and proprietary models, as well as ImgEdit-E1, providing deep analysis and actionable insights into the current behavior of image-editing models. The source data are publicly available on https://github.com/PKU-YuanGroup/ImgEdit.
- Abstract(参考訳): 生成モデルの最近の進歩により、高忠実度テキスト・画像生成が可能になった。
しかし、オープンソースのイメージ編集モデルは、主に高品質なデータと不十分なベンチマークのために、プロプライエタリなモデルよりも遅れている。
この制限を克服するため,新しい一ターン編集と複雑な一ターン編集の両方を含む120万の精巧な編集ペアからなる大規模で高品質な画像編集データセットであるImgEditを導入し,マルチターンタスクに挑戦する。
データ品質を保証するため、我々は最先端の視覚言語モデル、検出モデル、セグメンテーションモデルを統合するマルチステージパイプラインと、タスク固有のインペイントプロシージャと厳密な後処理を併用する。
ImgEditはタスクノベルティとデータ品質の両方で既存のデータセットを上回っている。
ImgEditを用いて、ImgEdit-E1をトレーニングし、参照画像の処理とプロンプトの編集にVision Language Modelを使用し、既存のオープンソースモデルを複数のタスクで上回り、ImgEditの価値とモデル設計を強調します。
ImgEdit-Benchは、画像編集性能を、命令順守、編集品質、ディテール保存の観点から評価するベンチマークである。
これには、基本的なテストスーツ、挑戦的なシングルターンスイート、専用のマルチターンスイートが含まれている。
オープンソースモデルとプロプライエタリモデルの両方、およびImgEdit-E1を評価し、画像編集モデルの現在の挙動に関する深い分析と実行可能な洞察を提供する。
ソースデータはhttps://github.com/PKU-YuanGroup/ImgEditで公開されている。
関連論文リスト
- Step1X-Edit: A Practical Framework for General Image Editing [64.07202539610576]
我々は、Step1X-Editと呼ばれる最先端の画像編集モデルをリリースする。
GPT-4oやGemini2 Flashのようなクローズドソースモデルと同等のパフォーマンスを提供できる。
評価のために,実世界のユーザ指示に根ざした新しいベンチマークであるGEdit-Benchを開発した。
論文 参考訳(メタデータ) (2025-04-24T17:25:12Z) - DreamOmni: Unified Image Generation and Editing [51.45871494724542]
本稿では,画像生成と編集の統一モデルであるDream Omniを紹介する。
訓練のためにドリーム・オムニはT2I世代と下流のタスクを共同で訓練する。
このコラボレーションは、編集性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-12-22T17:17:28Z) - AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea [88.79769371584491]
我々は、総合的なマルチモーダル命令編集データセットであるAnyEditを提示する。
我々は,AnyEditコレクションの多様性と品質を,初期データ多様性,適応編集プロセス,自動編集結果の選択という3つの側面を通じて保証する。
3つのベンチマークデータセットの実験によると、AnyEditは拡散ベースの編集モデルのパフォーマンスを一貫して向上させる。
論文 参考訳(メタデータ) (2024-11-24T07:02:56Z) - HQ-Edit: A High-Quality Dataset for Instruction-based Image Editing [38.13162627140172]
HQ-Editは、約20万の編集が可能な高品質な命令ベースの画像編集データセットである。
高品質を確実にするために、多様なサンプルはまずオンラインで収集され、拡張され、次に高品質なディプチチを作るために使用される。
HQ-Editは、細部が豊富で包括的な編集プロンプトを伴う高解像度の画像を編集し、既存の画像編集モデルの能力を大幅に強化する。
論文 参考訳(メタデータ) (2024-04-15T17:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。