論文の概要: MIGE: A Unified Framework for Multimodal Instruction-Based Image Generation and Editing
- arxiv url: http://arxiv.org/abs/2502.21291v2
- Date: Mon, 03 Mar 2025 11:33:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 13:05:10.948310
- Title: MIGE: A Unified Framework for Multimodal Instruction-Based Image Generation and Editing
- Title(参考訳): MIGE:マルチモーダルなインストラクションベースの画像生成と編集のための統一フレームワーク
- Authors: Xueyun Tian, Wei Li, Bingbing Xu, Yige Yuan, Yuanzhuo Wang, Huawei Shen,
- Abstract要約: MIGEはマルチモーダル命令を使ってタスク表現を標準化する統合フレームワークである。
対象駆動生成を空白キャンバス上の生成として扱い、命令ベースの編集を既存の画像の修正として扱う。
MIGEは、自由形式のマルチモーダル命令を統一された視覚言語空間にマッピングする新しいマルチモーダルエンコーダを導入している。
- 参考スコア(独自算出の注目度): 25.118495616895597
- License:
- Abstract: Despite significant progress in diffusion-based image generation, subject-driven generation and instruction-based editing remain challenging. Existing methods typically treat them separately, struggling with limited high-quality data and poor generalization. However, both tasks require capturing complex visual variations while maintaining consistency between inputs and outputs. Therefore, we propose MIGE, a unified framework that standardizes task representations using multimodal instructions. It treats subject-driven generation as creation on a blank canvas and instruction-based editing as modification of an existing image, establishing a shared input-output formulation. MIGE introduces a novel multimodal encoder that maps free-form multimodal instructions into a unified vision-language space, integrating visual and semantic features through a feature fusion mechanism. This unification enables joint training of both tasks, providing two key advantages: (1) Cross-Task Enhancement: By leveraging shared visual and semantic representations, joint training improves instruction adherence and visual consistency in both subject-driven generation and instruction-based editing. (2) Generalization: Learning in a unified format facilitates cross-task knowledge transfer, enabling MIGE to generalize to novel compositional tasks, including instruction-based subject-driven editing. Experiments show that MIGE excels in both subject-driven generation and instruction-based editing while setting a state-of-the-art in the new task of instruction-based subject-driven editing. Code and model have been publicly available at https://github.com/Eureka-Maggie/MIGE.
- Abstract(参考訳): 拡散ベース画像生成の大幅な進歩にもかかわらず、主観駆動生成と命令ベース編集は依然として困難である。
既存の手法は、通常、それらを別々に扱い、限られた高品質のデータと低い一般化に苦しむ。
しかし、どちらのタスクも入力と出力の整合性を維持しながら複雑な視覚的変化を捉える必要がある。
そこで本研究では,マルチモーダル命令を用いてタスク表現を標準化する統合フレームワークMIGEを提案する。
対象駆動生成を空白キャンバス上の生成として扱い、命令ベースの編集を既存の画像の修正として扱い、共有入力出力の定式化を確立する。
MIGEは、自由形式のマルチモーダル命令を統一された視覚言語空間にマッピングする新しいマルチモーダルエンコーダを導入し、特徴融合機構を通じて視覚的特徴と意味的特徴を統合する。
1)クロスタスク強化:共有された視覚的表現と意味的表現を活用することで、共同トレーニングは、主観的生成と命令ベースの編集の両方において、命令の順守と視覚的一貫性を改善する。
2) 一般化: 総合的な形式での学習は、クロスタスクな知識伝達を促進するため、MIGEは、命令ベースの主題駆動編集を含む、新しい構成課題に一般化することができる。
実験の結果,MIGEは教科ベース編集と教科ベース編集の両面で優れており,教科ベース編集の新たな課題として最先端の課題を設定していることがわかった。
コードとモデルはhttps://github.com/Eureka-Maggie/MIGE.comで公開されている。
関連論文リスト
- DreamOmni: Unified Image Generation and Editing [51.45871494724542]
本稿では,画像生成と編集の統一モデルであるDream Omniを紹介する。
訓練のためにドリーム・オムニはT2I世代と下流のタスクを共同で訓練する。
このコラボレーションは、編集性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-12-22T17:17:28Z) - BrushEdit: All-In-One Image Inpainting and Editing [79.55816192146762]
BrushEditは、インペイントベースの命令誘導画像編集パラダイムである。
本研究では,MLLMとデュアルブランチ画像の描画モデルを統合することで,自由形式の命令編集を可能にするシステムを提案する。
本フレームワークは,MLLMとインパインティングモデルを効果的に組み合わせ,7つの指標で優れた性能を実現する。
論文 参考訳(メタデータ) (2024-12-13T17:58:06Z) - A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z) - Unified Editing of Panorama, 3D Scenes, and Videos Through Disentangled Self-Attention Injection [60.47731445033151]
本稿では,基本的な2次元画像テキスト・ツー・イメージ(T2I)拡散モデルのみを利用して,両手法の長所を結合した新しい統合編集フレームワークを提案する。
実験結果から,3次元シーン,ビデオ,パノラマ画像など,様々なモダリティの編集が可能であることが確認された。
論文 参考訳(メタデータ) (2024-05-27T04:44:36Z) - Unified Diffusion-Based Rigid and Non-Rigid Editing with Text and Image
Guidance [15.130419159003816]
本稿では,厳密な編集と非厳密な編集の両方を実行できる多用途画像編集フレームワークを提案する。
我々は、多種多様な編集シナリオを扱うために、デュアルパスインジェクション方式を利用する。
外観と構造情報の融合のための統合自己認識機構を導入する。
論文 参考訳(メタデータ) (2024-01-04T08:21:30Z) - Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。
画像生成のための*multi-modal instruction*を導入する。
画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文 参考訳(メタデータ) (2024-01-03T19:31:58Z) - SmartEdit: Exploring Complex Instruction-based Image Editing with
Multimodal Large Language Models [91.22477798288003]
本稿では,命令ベースの画像編集の新しいアプローチであるSmartEditを紹介する。
MLLM(Multimodal Large Language Models)を利用して、その理解と推論能力を強化する。
我々は,より複雑な命令に対して,SmartEditの編集機能を効果的に刺激することのできる,少量の複雑な命令編集データを示す。
論文 参考訳(メタデータ) (2023-12-11T17:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。