Fugu-MT 論文翻訳(概要): ImgEdit: A Unified Image Editing Dataset and Benchmark

論文の概要: ImgEdit: A Unified Image Editing Dataset and Benchmark

arxiv url: http://arxiv.org/abs/2505.20275v1
Date: Mon, 26 May 2025 17:53:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-28 14:37:20.367951
Title: ImgEdit: A Unified Image Editing Dataset and Benchmark
Title（参考訳）: ImgEdit: データセットとベンチマークを統一したイメージ編集
Authors: Yang Ye, Xianyi He, Zongjian Li, Bin Lin, Shenghai Yuan, Zhiyuan Yan, Bohan Hou, Li Yuan,
Abstract要約: 大規模な画像編集データセットであるImgEditを紹介した。 ImgEditはタスクノベルティとデータ品質の両方で既存のデータセットを上回っている。画像編集性能を評価するためのベンチマークであるImgEdit-Benchを紹介する。
参考スコア（独自算出の注目度）: 14.185771939071149
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in generative models have enabled high-fidelity text-to-image generation. However, open-source image-editing models still lag behind their proprietary counterparts, primarily due to limited high-quality data and insufficient benchmarks. To overcome these limitations, we introduce ImgEdit, a large-scale, high-quality image-editing dataset comprising 1.2 million carefully curated edit pairs, which contain both novel and complex single-turn edits, as well as challenging multi-turn tasks. To ensure the data quality, we employ a multi-stage pipeline that integrates a cutting-edge vision-language model, a detection model, a segmentation model, alongside task-specific in-painting procedures and strict post-processing. ImgEdit surpasses existing datasets in both task novelty and data quality. Using ImgEdit, we train ImgEdit-E1, an editing model using Vision Language Model to process the reference image and editing prompt, which outperforms existing open-source models on multiple tasks, highlighting the value of ImgEdit and model design. For comprehensive evaluation, we introduce ImgEdit-Bench, a benchmark designed to evaluate image editing performance in terms of instruction adherence, editing quality, and detail preservation. It includes a basic testsuite, a challenging single-turn suite, and a dedicated multi-turn suite. We evaluate both open-source and proprietary models, as well as ImgEdit-E1, providing deep analysis and actionable insights into the current behavior of image-editing models. The source data are publicly available on https://github.com/PKU-YuanGroup/ImgEdit.
Abstract（参考訳）: 生成モデルの最近の進歩により、高忠実度テキスト・画像生成が可能になった。しかし、オープンソースのイメージ編集モデルは、主に高品質なデータと不十分なベンチマークのために、プロプライエタリなモデルよりも遅れている。この制限を克服するため,新しい一ターン編集と複雑な一ターン編集の両方を含む120万の精巧な編集ペアからなる大規模で高品質な画像編集データセットであるImgEditを導入し,マルチターンタスクに挑戦する。データ品質を保証するため、我々は最先端の視覚言語モデル、検出モデル、セグメンテーションモデルを統合するマルチステージパイプラインと、タスク固有のインペイントプロシージャと厳密な後処理を併用する。 ImgEditはタスクノベルティとデータ品質の両方で既存のデータセットを上回っている。 ImgEditを用いて、ImgEdit-E1をトレーニングし、参照画像の処理とプロンプトの編集にVision Language Modelを使用し、既存のオープンソースモデルを複数のタスクで上回り、ImgEditの価値とモデル設計を強調します。 ImgEdit-Benchは、画像編集性能を、命令順守、編集品質、ディテール保存の観点から評価するベンチマークである。これには、基本的なテストスーツ、挑戦的なシングルターンスイート、専用のマルチターンスイートが含まれている。オープンソースモデルとプロプライエタリモデルの両方、およびImgEdit-E1を評価し、画像編集モデルの現在の挙動に関する深い分析と実行可能な洞察を提供する。ソースデータはhttps://github.com/PKU-YuanGroup/ImgEditで公開されている。

関連論文リスト

What Changed? Detecting and Evaluating Instruction-Guided Image Edits with Multimodal Large Language Models [88.398085358514]
DICEは、原画像と編集画像の局所的な差異を検出するために設計されたモデルである。自己監督、塗布ネットワークからの蒸留、全監督を利用する戦略を用いて訓練されている。 DICEは一貫性のある編集を効果的に識別し、異なる編集モデルによって生成された画像を人間の判断と強く相関して効果的に評価する。
論文参考訳（メタデータ） (2025-05-26T18:00:10Z)
Step1X-Edit: A Practical Framework for General Image Editing [64.07202539610576]
我々は、Step1X-Editと呼ばれる最先端の画像編集モデルをリリースする。 GPT-4oやGemini2 Flashのようなクローズドソースモデルと同等のパフォーマンスを提供できる。評価のために,実世界のユーザ指示に根ざした新しいベンチマークであるGEdit-Benchを開発した。
論文参考訳（メタデータ） (2025-04-24T17:25:12Z)
EditAR: Unified Conditional Generation with Autoregressive Models [58.093860528672735]
本稿では,条件付き画像生成タスクのための単一の統合自己回帰フレームワークであるEditARを提案する。このモデルは、画像と命令の両方を入力として取り、バニラの次のパラダイムで編集された画像トークンを予測する。確立されたベンチマークにおいて,様々なタスクにまたがる実効性を評価し,様々なタスク固有の手法に対する競争性能を示す。
論文参考訳（メタデータ） (2025-01-08T18:59:35Z)
DreamOmni: Unified Image Generation and Editing [51.45871494724542]
本稿では,画像生成と編集の統一モデルであるDream Omniを紹介する。訓練のためにドリーム・オムニはT2I世代と下流のタスクを共同で訓練する。このコラボレーションは、編集性能を大幅に向上させる。
論文参考訳（メタデータ） (2024-12-22T17:17:28Z)
AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea [88.79769371584491]
我々は、総合的なマルチモーダル命令編集データセットであるAnyEditを提示する。我々は,AnyEditコレクションの多様性と品質を,初期データ多様性,適応編集プロセス,自動編集結果の選択という3つの側面を通じて保証する。 3つのベンチマークデータセットの実験によると、AnyEditは拡散ベースの編集モデルのパフォーマンスを一貫して向上させる。
論文参考訳（メタデータ） (2024-11-24T07:02:56Z)
ReEdit: Multimodal Exemplar-Based Image Editing with Diffusion Models [11.830273909934688]
最新のテキスト・ツー・イメージ(T2I)拡散モデルでは、高品質な画像を生成することで画像編集に革命をもたらした。テキストと画像のモダリティの両方で編集をキャプチャする,モジュール的で効率的なエンドツーエンドフレームワークであるReEditを提案する。以上の結果から,ReEditは定性的かつ定量的に現代的アプローチを一貫して上回っていることが示された。
論文参考訳（メタデータ） (2024-11-06T15:19:24Z)
SEED-Data-Edit Technical Report: A Hybrid Dataset for Instructional Image Editing [53.00272278754867]
SEED-Data-Editは命令誘導画像編集のためのハイブリッドデータセットである。自動パイプラインによって生成された高品質な編集データ。インターネットから収集された実世界のシナリオデータ。人間によって注釈付けされた高精度マルチターン編集データ。
論文参考訳（メタデータ） (2024-05-07T04:55:47Z)
HQ-Edit: A High-Quality Dataset for Instruction-based Image Editing [38.13162627140172]
HQ-Editは、約20万の編集が可能な高品質な命令ベースの画像編集データセットである。高品質を確実にするために、多様なサンプルはまずオンラインで収集され、拡張され、次に高品質なディプチチを作るために使用される。 HQ-Editは、細部が豊富で包括的な編集プロンプトを伴う高解像度の画像を編集し、既存の画像編集モデルの能力を大幅に強化する。
論文参考訳（メタデータ） (2024-04-15T17:59:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。