論文の概要: MCIE: Multimodal LLM-Driven Complex Instruction Image Editing with Spatial Guidance
- arxiv url: http://arxiv.org/abs/2602.07993v1
- Date: Sun, 08 Feb 2026 14:40:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.910095
- Title: MCIE: Multimodal LLM-Driven Complex Instruction Image Editing with Spatial Guidance
- Title(参考訳): MCIE:空間誘導によるマルチモーダルLCM駆動複合インストラクション画像編集
- Authors: Xuehai Bai, Xiaoling Gu, Akide Liu, Hangjie Yuan, YiFan Zhang, Jack Ma,
- Abstract要約: MCIE-E1は、大規模言語モデル駆動の複雑な命令画像編集手法である。
空間対応のクロスアテンションモジュールとバックグラウンド一貫性のクロスアテンションモジュールの2つの重要なモジュールを統合している。
それは、定量評価と定性評価の両方において、従来の最先端の手法を一貫して上回っている。
- 参考スコア(独自算出の注目度): 16.97760861651234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in instruction-based image editing have shown remarkable progress. However, existing methods remain limited to relatively simple editing operations, hindering real-world applications that require complex and compositional instructions. In this work, we address these limitations from the perspectives of architectural design, data, and evaluation protocols. Specifically, we identify two key challenges in current models: insufficient instruction compliance and background inconsistency. To this end, we propose MCIE-E1, a Multimodal Large Language Model-Driven Complex Instruction Image Editing method that integrates two key modules: a spatial-aware cross-attention module and a background-consistent cross-attention module. The former enhances instruction-following capability by explicitly aligning semantic instructions with spatial regions through spatial guidance during the denoising process, while the latter preserves features in unedited regions to maintain background consistency. To enable effective training, we construct a dedicated data pipeline to mitigate the scarcity of complex instruction-based image editing datasets, combining fine-grained automatic filtering via a powerful MLLM with rigorous human validation. Finally, to comprehensively evaluate complex instruction-based image editing, we introduce CIE-Bench, a new benchmark with two new evaluation metrics. Experimental results on CIE-Bench demonstrate that MCIE-E1 consistently outperforms previous state-of-the-art methods in both quantitative and qualitative assessments, achieving a 23.96% improvement in instruction compliance.
- Abstract(参考訳): 近年のインストラクションベース画像編集の進歩は顕著な進歩を見せている。
しかし、既存の方法は比較的単純な編集操作に限られており、複雑で構成的な命令を必要とする現実世界のアプリケーションを妨げる。
本研究では,アーキテクチャ設計,データ,評価プロトコルの観点から,これらの制約に対処する。
具体的には、現在のモデルにおいて、命令コンプライアンスの不十分とバックグラウンドの不整合の2つの重要な課題を特定する。
そこで本研究では,空間認識型クロスアテンションモジュールと背景整合型クロスアテンションモジュールという,2つの重要なモジュールを統合したマルチモーダル大規模言語モデル駆動型複合インストラクション画像編集手法MCIE-E1を提案する。
前者は、デノナイジングプロセス中に空間誘導を通して、意味的指示を空間的領域に明示的に整列させることにより、指示追従能力を向上し、後者は背景整合性を維持するために未編集領域の特徴を保存する。
効果的なトレーニングを実現するため、複雑な命令ベースの画像編集データセットの不足を軽減するために、強力なMLLMによるきめ細かい自動フィルタリングと厳密な人間の検証を組み合わせた専用データパイプラインを構築した。
最後に、複雑な命令ベースの画像編集を包括的に評価するために、2つの新しい評価指標を持つ新しいベンチマークであるCIE-Benchを紹介する。
CIE-Benchの実験結果によると、MCIE-E1は、定量的および定性的な評価において、従来の最先端の手法を一貫して上回り、命令コンプライアンスを23.96%改善した。
関連論文リスト
- I2E: From Image Pixels to Actionable Interactive Environments for Text-Guided Image Editing [59.434028565445885]
I2Eは、画像編集を構造化された環境内の実行可能な相互作用プロセスとして再考する、新しい「分解・テーマ・アクション」パラダイムである。
I2EはDecomposerを使用して、非構造化画像を個別に操作可能なオブジェクト層に変換し、複雑な命令を解析するために、物理を意識したVision-Language-Action Agentを導入する。
I2Eは、複雑な構成命令の処理、物理的妥当性の維持、マルチターン編集安定性の確保において、最先端の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2026-01-07T09:29:57Z) - CogniEdit: Dense Gradient Flow Optimization for Fine-Grained Image Editing [88.9067184995168]
マルチモーダル推論と高密度報酬最適化を組み合わせた統合フレームワークCogniEditを提案する。
本手法は,視覚的品質と編集可能性の保存に追従する微粒な命令のバランスをとることによって,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-12-15T12:36:50Z) - DreamOmni2: Multimodal Instruction-based Editing and Generation [77.997848231822]
マルチモーダルな命令ベースの編集と生成という2つの新しいタスクを提案する。
これらのタスクはテキストとイメージの命令の両方をサポートし、具体的概念と抽象概念の両方を含むようにスコープを拡張する。
データ合成パイプラインは,(1)抽象的概念と具体的概念の両方の抽出データを作成するための特徴混合法,(2)編集と抽出モデルを用いたマルチモーダル命令ベースの編集訓練データを生成すること,(3)抽出モデルを適用してマルチモーダル命令ベースの編集のためのトレーニングデータを生成すること,の3つのステップで構成されている。
論文 参考訳(メタデータ) (2025-10-08T06:07:14Z) - Draw-In-Mind: Rebalancing Designer-Painter Roles in Unified Multimodal Models Benefits Image Editing [53.197392152109636]
DIM-T2I(Draw-In-Mind:Draw-In-Mind:DIM)と、GPT-4oが生成した233Kのチェーン・オブ・シンジケーションからなるDIM-Edit(DIM-Edit)という2つの補完的なサブセットからなるデータセットを紹介し、画像編集のための明示的な設計青写真として機能する。
DIM-4.6B-T2I/Edit は ImgEdit や GEdit-Bench のベンチマークにおいて、UniWorld-V1 や Step1X-Edit など、はるかに大きなモデルよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-09-02T06:06:52Z) - MIGE: Mutually Enhanced Multimodal Instruction-Based Image Generation and Editing [25.118495616895597]
MIGEはマルチモーダル命令を使ってタスク表現を標準化する統合フレームワークである。
まず、対象駆動生成を空白キャンバス上の生成として扱い、命令ベースの編集を既存の画像の修正として扱う。
MIGEは、命令ベースの主観的編集の新しいタスクにSOTAを設定しながら、主観的生成と命令に基づく編集の両面で優れている。
論文 参考訳(メタデータ) (2025-02-28T18:21:08Z) - Compositional Image Retrieval via Instruction-Aware Contrastive Learning [40.54022628032561]
Composed Image Retrieval (CIR)は、テキストとペアリングした画像の合成クエリに基づいてターゲットイメージを検索する。
実際には、下流タスクにおけるアノテートデータの不足のため、ゼロショットCIR(ZS-CIR)が望ましい。
命令調整型マルチモーダルLLM(MLLM)を用いて合成表現を生成する新しい埋め込み手法を提案する。
論文 参考訳(メタデータ) (2024-12-07T22:46:52Z) - SmartEdit: Exploring Complex Instruction-based Image Editing with
Multimodal Large Language Models [91.22477798288003]
本稿では,命令ベースの画像編集の新しいアプローチであるSmartEditを紹介する。
MLLM(Multimodal Large Language Models)を利用して、その理解と推論能力を強化する。
我々は,より複雑な命令に対して,SmartEditの編集機能を効果的に刺激することのできる,少量の複雑な命令編集データを示す。
論文 参考訳(メタデータ) (2023-12-11T17:54:11Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。