論文の概要: Draw-In-Mind: Learning Precise Image Editing via Chain-of-Thought Imagination
- arxiv url: http://arxiv.org/abs/2509.01986v1
- Date: Tue, 02 Sep 2025 06:06:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.921162
- Title: Draw-In-Mind: Learning Precise Image Editing via Chain-of-Thought Imagination
- Title(参考訳): ドロー・イン・ミンド:チェーン・オブ・サード・イマジネーションによる精密画像編集の学習
- Authors: Ziyun Zeng, Junhao Zhang, Wei Li, Mike Zheng Shou,
- Abstract要約: DIM-T2I(Draw-In-Mind:Draw-In-Mind:DIM)と、GPT-4oが生成した233Kのチェーン・オブ・シンジケーションからなるDIM-Edit(DIM-Edit)という2つの補完的なサブセットからなるデータセットを紹介し、画像編集のための明示的な設計青写真として機能する。
DIM-4.6B-T2I/Edit は ImgEdit や GEdit-Bench のベンチマークにおいて、UniWorld-V1 や Step1X-Edit など、はるかに大きなモデルよりも優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 53.197392152109636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, integrating multimodal understanding and generation into a single unified model has emerged as a promising paradigm. While this approach achieves strong results in text-to-image (T2I) generation, it still struggles with precise image editing. We attribute this limitation to an imbalanced division of responsibilities. The understanding module primarily functions as a translator that encodes user instructions into semantic conditions, while the generation module must simultaneously act as designer and painter, inferring the original layout, identifying the target editing region, and rendering the new content. This imbalance is counterintuitive because the understanding module is typically trained with several times more data on complex reasoning tasks than the generation module. To address this issue, we introduce Draw-In-Mind (DIM), a dataset comprising two complementary subsets: (i) DIM-T2I, containing 14M long-context image-text pairs to enhance complex instruction comprehension; and (ii) DIM-Edit, consisting of 233K chain-of-thought imaginations generated by GPT-4o, serving as explicit design blueprints for image edits. We connect a frozen Qwen2.5-VL-3B with a trainable SANA1.5-1.6B via a lightweight two-layer MLP, and train it on the proposed DIM dataset, resulting in DIM-4.6B-T2I/Edit. Despite its modest parameter scale, DIM-4.6B-Edit achieves SOTA or competitive performance on the ImgEdit and GEdit-Bench benchmarks, outperforming much larger models such as UniWorld-V1 and Step1X-Edit. These findings demonstrate that explicitly assigning the design responsibility to the understanding module provides significant benefits for image editing. Our dataset and models will be available at https://github.com/showlab/DIM.
- Abstract(参考訳): 近年,マルチモーダル理解と生成を単一の統一モデルに統合することが,有望なパラダイムとして浮上している。
このアプローチはテキスト・ツー・イメージ(T2I)生成において強い結果をもたらすが、正確な画像編集には依然として苦戦している。
我々はこの制限を不均衡な責任の分割とみなす。
理解モジュールは主にユーザ命令を意味のある条件にエンコードするトランスレータとして機能し、生成モジュールはデザイナと画家を同時に動作させ、元のレイアウトを推論し、ターゲットの編集領域を特定し、新しいコンテンツをレンダリングする必要がある。
理解モジュールは一般的に、生成モジュールよりも複雑な推論タスクに関する数倍のデータで訓練されるため、この不均衡は直感的ではない。
この問題に対処するために、Draw-In-Mind (DIM) という2つの補足集合からなるデータセットを紹介します。
(i)DIM-T2Iは、複雑な命令理解を高めるために、14Mの長文画像-テキストペアを含む。
(ii)DIM-Editは、GPT-4oによって生成される233Kチェーンの想像力で構成され、画像編集のための明示的な設計青写真として機能する。
凍結したQwen2.5-VL-3BとSANA1.5-1.6Bを軽量な2層MLPで接続し、提案したDIMデータセットでトレーニングし、結果としてDIM-4.6B-T2I/Editとなる。
控えめなパラメータスケールにもかかわらず、DIM-4.6B-Edit は ImgEdit や GEdit-Bench のベンチマークで SOTA または競合的な性能を達成し、UniWorld-V1 や Step1X-Edit など、はるかに大きなモデルよりも優れている。
これらの結果から,設計責任を理解モジュールに明示的に割り当てることが,画像編集に有益であることが示唆された。
私たちのデータセットとモデルは、https://github.com/showlab/DIM.orgで公開されます。
関連論文リスト
- X2Edit: Revisiting Arbitrary-Instruction Image Editing through Self-Constructed Data and Task-Aware Representation Learning [5.5731375523793645]
X2Editデータセットは、14の多様な編集タスクをカバーする包括的なデータセットである。
バランスの取れたカテゴリで370万の高品質なデータを構築します。
実験により、多くの優れたモデルの間で、モデルの編集性能が競争力があることが示されている。
論文 参考訳(メタデータ) (2025-08-11T04:22:49Z) - ImgEdit: A Unified Image Editing Dataset and Benchmark [14.185771939071149]
大規模な画像編集データセットであるImgEditを紹介した。
ImgEditはタスクノベルティとデータ品質の両方で既存のデータセットを上回っている。
画像編集性能を評価するためのベンチマークであるImgEdit-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-26T17:53:33Z) - DreamOmni: Unified Image Generation and Editing [51.45871494724542]
本稿では,画像生成と編集の統一モデルであるDream Omniを紹介する。
訓練のためにドリーム・オムニはT2I世代と下流のタスクを共同で訓練する。
このコラボレーションは、編集性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-12-22T17:17:28Z) - GraPE: A Generate-Plan-Edit Framework for Compositional T2I Synthesis [10.47359822447001]
本稿では,複雑な多段階生成のタスクを3段階に分解する,T2I合成の代替パラダイムを提案する。
提案手法は,モジュール性が高く,トレーニングが自由であり,画像生成モデルと編集モデルの組み合わせに対して適用可能であるという事実から,その強みを導出する。
論文 参考訳(メタデータ) (2024-12-08T22:29:56Z) - Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。
本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。
本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-03T08:15:39Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - SmartEdit: Exploring Complex Instruction-based Image Editing with
Multimodal Large Language Models [91.22477798288003]
本稿では,命令ベースの画像編集の新しいアプローチであるSmartEditを紹介する。
MLLM(Multimodal Large Language Models)を利用して、その理解と推論能力を強化する。
我々は,より複雑な命令に対して,SmartEditの編集機能を効果的に刺激することのできる,少量の複雑な命令編集データを示す。
論文 参考訳(メタデータ) (2023-12-11T17:54:11Z) - mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image
and Video [89.19867891570945]
mPLUG-2は、マルチモーダル事前訓練のためのモジュール化された設計を備えた新しい統一パラダイムである。
モダリティ協力のための共通普遍加群を共有し、モダリティの絡み合いを扱うために異なるモダリティ加群を切り離す。
テキスト、画像、ビデオを含むすべてのモダリティの異なる理解タスクと生成タスクのために、異なるモジュールを選択することは柔軟です。
論文 参考訳(メタデータ) (2023-02-01T12:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。