論文の概要: X2Edit: Revisiting Arbitrary-Instruction Image Editing through Self-Constructed Data and Task-Aware Representation Learning
- arxiv url: http://arxiv.org/abs/2508.07607v2
- Date: Sun, 09 Nov 2025 01:42:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.394595
- Title: X2Edit: Revisiting Arbitrary-Instruction Image Editing through Self-Constructed Data and Task-Aware Representation Learning
- Title(参考訳): X2Edit: 自己構築データとタスク認識表現学習による任意命令画像編集の見直し
- Authors: Jian Ma, Xujie Zhu, Zihao Pan, Qirong Peng, Xu Guo, Chen Chen, Haonan Lu,
- Abstract要約: X2Editデータセットは、14の多様な編集タスクをカバーする包括的なデータセットである。
バランスの取れたカテゴリで370万の高品質なデータを構築します。
実験により、多くの優れたモデルの間で、モデルの編集性能が競争力があることが示されている。
- 参考スコア(独自算出の注目度): 14.005947068255546
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing open-source datasets for arbitrary-instruction image editing remain suboptimal, while a plug-and-play editing module compatible with community-prevalent generative models is notably absent. In this paper, we first introduce the X2Edit Dataset, a comprehensive dataset covering 14 diverse editing tasks, including subject-driven generation. We utilize the industry-leading unified image generation models and expert models to construct the data. Meanwhile, we design reasonable editing instructions with the VLM and implement various scoring mechanisms to filter the data. As a result, we construct 3.7 million high-quality data with balanced categories. Second, to better integrate seamlessly with community image generation models, we design task-aware MoE-LoRA training based on FLUX.1, with only 8\% of the parameters of the full model. To further improve the final performance, we utilize the internal representations of the diffusion model and define positive/negative samples based on image editing types to introduce contrastive learning. Extensive experiments demonstrate that the model's editing performance is competitive among many excellent models. Additionally, the constructed dataset exhibits substantial advantages over existing open-source datasets. The open-source code, checkpoints, and datasets for X2Edit can be found at the following link: https://github.com/OPPO-Mente-Lab/X2Edit.
- Abstract(参考訳): 任意のインストラクション画像編集のための既存のオープンソースデータセットは依然として最適であり、コミュニティで広く使われている生成モデルと互換性のあるプラグイン・アンド・プレイ編集モジュールは特に欠落している。
本稿では、まず、テーマ駆動生成を含む14種類の編集タスクをカバーする包括的なデータセットであるX2Edit Datasetを紹介する。
業界主導の統一画像生成モデルとエキスパートモデルを用いてデータを構築する。
一方,VLMを用いて適切な編集命令を設計し,データをフィルタリングする様々なスコアリング機構を実装した。
その結果、バランスの取れたカテゴリで370万の高品質なデータを構築した。
第2に、コミュニティ画像生成モデルとシームレスに統合するために、FLUX.1に基づくタスク対応のMoE-LoRAトレーニングを設計する。
最終性能をさらに向上するために,拡散モデルの内部表現を利用し,画像編集型に基づく正負のサンプルを定義し,コントラスト学習を導入する。
大規模な実験により、多くの優れたモデルの間で、モデルの編集性能が競争力があることが示されている。
さらに、構築されたデータセットは、既存のオープンソースデータセットよりも大きなアドバンテージを示す。
X2Editのオープンソースコード、チェックポイント、データセットは以下のリンクで見ることができる。
関連論文リスト
- Learning an Image Editing Model without Image Editing Pairs [83.03646586929638]
最近の画像編集モデルは、自然言語編集の指示に従いながら印象的な成果を上げている。
それらは、インプットとターゲットのペアの大きなデータセットによる教師付き微調整に依存している。
現在の回避策は、既存のモデルのゼロショット機能を利用する合成トレーニングペアを使用する。
ペア化されたデータを完全に不要にする新たなトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2025-10-16T17:59:57Z) - Draw-In-Mind: Rebalancing Designer-Painter Roles in Unified Multimodal Models Benefits Image Editing [53.197392152109636]
DIM-T2I(Draw-In-Mind:Draw-In-Mind:DIM)と、GPT-4oが生成した233Kのチェーン・オブ・シンジケーションからなるDIM-Edit(DIM-Edit)という2つの補完的なサブセットからなるデータセットを紹介し、画像編集のための明示的な設計青写真として機能する。
DIM-4.6B-T2I/Edit は ImgEdit や GEdit-Bench のベンチマークにおいて、UniWorld-V1 や Step1X-Edit など、はるかに大きなモデルよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-09-02T06:06:52Z) - ImgEdit: A Unified Image Editing Dataset and Benchmark [14.185771939071149]
大規模な画像編集データセットであるImgEditを紹介した。
ImgEditはタスクノベルティとデータ品質の両方で既存のデータセットを上回っている。
画像編集性能を評価するためのベンチマークであるImgEdit-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-26T17:53:33Z) - Step1X-Edit: A Practical Framework for General Image Editing [64.07202539610576]
我々は、Step1X-Editと呼ばれる最先端の画像編集モデルをリリースする。
GPT-4oやGemini2 Flashのようなクローズドソースモデルと同等のパフォーマンスを提供できる。
評価のために,実世界のユーザ指示に根ざした新しいベンチマークであるGEdit-Benchを開発した。
論文 参考訳(メタデータ) (2025-04-24T17:25:12Z) - DreamOmni: Unified Image Generation and Editing [51.45871494724542]
本稿では,画像生成と編集の統一モデルであるDream Omniを紹介する。
訓練のためにドリーム・オムニはT2I世代と下流のタスクを共同で訓練する。
このコラボレーションは、編集性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-12-22T17:17:28Z) - AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea [88.79769371584491]
我々は、総合的なマルチモーダル命令編集データセットであるAnyEditを提示する。
我々は,AnyEditコレクションの多様性と品質を,初期データ多様性,適応編集プロセス,自動編集結果の選択という3つの側面を通じて保証する。
3つのベンチマークデータセットの実験によると、AnyEditは拡散ベースの編集モデルのパフォーマンスを一貫して向上させる。
論文 参考訳(メタデータ) (2024-11-24T07:02:56Z) - SEED-Data-Edit Technical Report: A Hybrid Dataset for Instructional Image Editing [53.00272278754867]
SEED-Data-Editは命令誘導画像編集のためのハイブリッドデータセットである。
自動パイプラインによって生成された高品質な編集データ。
インターネットから収集された実世界のシナリオデータ。
人間によって注釈付けされた高精度マルチターン編集データ。
論文 参考訳(メタデータ) (2024-05-07T04:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。