論文の概要: MultiEdit: Advancing Instruction-based Image Editing on Diverse and Challenging Tasks
- arxiv url: http://arxiv.org/abs/2509.14638v1
- Date: Thu, 18 Sep 2025 05:33:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.080723
- Title: MultiEdit: Advancing Instruction-based Image Editing on Diverse and Challenging Tasks
- Title(参考訳): マルチ編集:多変量および混在課題に基づくインストラクションに基づく画像編集の促進
- Authors: Mingsong Li, Lin Liu, Hongjun Wang, Haoxing Chen, Xijun Gu, Shizhan Liu, Dong Gong, Junbo Zhao, Zhenzhong Lan, Jianguo Li,
- Abstract要約: MultiEditは、107K以上の高品質の画像編集サンプルを備えた包括的なデータセットである。
18の非スタイルの編集タイプと38のスタイルの転送操作の多様なコレクションを通じて、6つの困難な編集タスクを含んでいる。
我々は、2つのマルチモーダル大言語モデル(MLLM)を用いて視覚適応的な編集命令を生成する新しいデータセット構築パイプラインを用いる。
- 参考スコア(独自算出の注目度): 46.87912659985628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current instruction-based image editing (IBIE) methods struggle with challenging editing tasks, as both editing types and sample counts of existing datasets are limited. Moreover, traditional dataset construction often contains noisy image-caption pairs, which may introduce biases and limit model capabilities in complex editing scenarios. To address these limitations, we introduce MultiEdit, a comprehensive dataset featuring over 107K high-quality image editing samples. It encompasses 6 challenging editing tasks through a diverse collection of 18 non-style-transfer editing types and 38 style transfer operations, covering a spectrum from sophisticated style transfer to complex semantic operations like person reference editing and in-image text editing. We employ a novel dataset construction pipeline that utilizes two multi-modal large language models (MLLMs) to generate visual-adaptive editing instructions and produce high-fidelity edited images, respectively. Extensive experiments demonstrate that fine-tuning foundational open-source models with our MultiEdit-Train set substantially improves models' performance on sophisticated editing tasks in our proposed MultiEdit-Test benchmark, while effectively preserving their capabilities on the standard editing benchmark. We believe MultiEdit provides a valuable resource for advancing research into more diverse and challenging IBIE capabilities. Our dataset is available at https://huggingface.co/datasets/inclusionAI/MultiEdit.
- Abstract(参考訳): 現在の命令ベースの画像編集(IBIE)手法は、編集タイプと既存のデータセットのサンプル数に制限があるため、編集作業の難しさに苦慮している。
さらに、従来のデータセット構築には、複雑な編集シナリオでバイアスやモデル機能を制限する、ノイズの多いイメージキャプチャペアが含まれることが多い。
これらの制限に対処するために,107K以上の高品質画像編集サンプルを備えた総合データセットであるMultiEditを導入する。
18種類の非スタイル転送編集タイプと38種類のスタイル転送操作の多様なコレクションを通じて、6つの困難な編集タスクを含み、洗練されたスタイル転送から、人物参照編集や画像内テキスト編集のような複雑なセマンティック操作までのスペクトルをカバーする。
2つのマルチモーダル大言語モデル(MLLM)を用いて、視覚適応型編集命令を生成し、高忠実度編集画像を生成する。
提案したMultiEdit-Testベンチマークにおいて,MultiEdit-Trainセットによる微調整による基礎的オープンソースモデルの性能が大幅に向上し,その性能を標準編集ベンチマークで効果的に維持することを示した。
MultiEditは、より多様で挑戦的なIBIE機能の研究を進める上で、貴重なリソースであると考えています。
私たちのデータセットはhttps://huggingface.co/datasets/inclusionAI/MultiEditで公開されています。
関連論文リスト
- Image Editing As Programs with Diffusion Models [69.05164729625052]
本稿では,Diffusion Transformer (DiT) アーキテクチャ上に構築された統合画像編集フレームワークである IEAP (Image Editing As Programs) を紹介する。
IEAPは、複雑な編集命令を原子操作のシーケンスに分解して、リダミストレンズによる命令編集にアプローチする。
我々のフレームワークは、特に複雑なマルチステップ命令に対して、より優れた精度とセマンティック忠実度を提供する。
論文 参考訳(メタデータ) (2025-06-04T16:57:24Z) - ImgEdit: A Unified Image Editing Dataset and Benchmark [14.185771939071149]
大規模な画像編集データセットであるImgEditを紹介した。
ImgEditはタスクノベルティとデータ品質の両方で既存のデータセットを上回っている。
画像編集性能を評価するためのベンチマークであるImgEdit-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-26T17:53:33Z) - Beyond Editing Pairs: Fine-Grained Instructional Image Editing via Multi-Scale Learnable Regions [20.617718631292696]
我々は、広く利用可能な膨大なテキストイメージ対を利用する命令駆動画像編集のための新しいパラダイムを開発する。
本手法では,編集プロセスのローカライズとガイドを行うために,マルチスケールの学習可能な領域を導入する。
画像とそのテキスト記述のアライメントを監督・学習として扱い,タスク固有の編集領域を生成することにより,高忠実で高精度かつ命令一貫性のある画像編集を実現する。
論文 参考訳(メタデータ) (2025-05-25T22:40:59Z) - AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea [88.79769371584491]
我々は、総合的なマルチモーダル命令編集データセットであるAnyEditを提示する。
我々は,AnyEditコレクションの多様性と品質を,初期データ多様性,適応編集プロセス,自動編集結果の選択という3つの側面を通じて保証する。
3つのベンチマークデータセットの実験によると、AnyEditは拡散ベースの編集モデルのパフォーマンスを一貫して向上させる。
論文 参考訳(メタデータ) (2024-11-24T07:02:56Z) - Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。
我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。
Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文 参考訳(メタデータ) (2023-11-16T18:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。