論文の概要: MIND-Edit: MLLM Insight-Driven Editing via Language-Vision Projection
- arxiv url: http://arxiv.org/abs/2505.19149v1
- Date: Sun, 25 May 2025 13:54:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.937483
- Title: MIND-Edit: MLLM Insight-Driven Editing via Language-Vision Projection
- Title(参考訳): MIND-Edit:MLLM Insight-Driven Editing via Language-Vision Projection (英語)
- Authors: Shuyu Wang, Weiqi Li, Qian Wang, Shijie Zhao, Jian Zhang,
- Abstract要約: MLLMと事前学習拡散モデルを組み合わせたエンドツーエンド画像編集フレームワークであるMIND-Editを提案する。
MIND-Editは,(1)MLLMからの意味的推論に基づく曖昧なユーザ指示を明確化するテキスト命令最適化戦略,(2)MLLMの本質的な視覚的理解能力を明示的に活用して編集意図を推測するMLLM洞察駆動型編集戦略,の2つの補完戦略を導入している。
大規模な実験により、MIND-Editは、特に複雑で困難なシナリオにおいて、定量的メトリクスと視覚的品質の両方において、最先端の画像編集方法より優れていることが示された。
- 参考スコア(独自算出の注目度): 13.467269066605452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in AI-generated content (AIGC) have significantly accelerated image editing techniques, driving increasing demand for diverse and fine-grained edits. Despite these advances, existing image editing methods still face challenges in achieving high precision and semantic accuracy in complex scenarios. Recent studies address this issue by incorporating multimodal large language models (MLLMs) into image editing pipelines. However, current MLLM-based methods mainly rely on interpreting textual instructions, leaving the intrinsic visual understanding of large models largely unexplored, thus resulting in insufficient alignment between textual semantics and visual outcomes. To overcome these limitations, we propose MIND-Edit, an end-to-end image-editing framework integrating pretrained diffusion model with MLLM. MIND-Edit introduces two complementary strategies: (1) a text instruction optimization strategy that clarifies ambiguous user instructions based on semantic reasoning from the MLLM, and (2) an MLLM insight-driven editing strategy that explicitly leverages the intrinsic visual understanding capability of the MLLM to infer editing intent and guide the diffusion process via generated visual embeddings. Furthermore, we propose a joint training approach to effectively integrate both strategies, allowing them to reinforce each other for more accurate instruction interpretation and visually coherent edits aligned with user intent. Extensive experiments demonstrate that MIND-Edit outperforms state-of-the-art image editing methods in both quantitative metrics and visual quality, particularly under complex and challenging scenarios.
- Abstract(参考訳): AIGC(AI- generated content)の最近の進歩は、画像編集技術を大幅に加速し、多種多様できめ細かな編集に対する需要が高まっている。
これらの進歩にもかかわらず、既存の画像編集手法は複雑なシナリオにおいて高い精度と意味的精度を達成する上で依然として課題に直面している。
近年の研究では、画像編集パイプラインにMLLM(Multimodal large language model)を組み込むことでこの問題に対処している。
しかし、現在のMLLMベースの手法は主にテキスト命令の解釈に依存しており、大きなモデルの内在的な視覚的理解はほとんど探索されていないため、テキスト意味論と視覚的結果の整合性は不十分である。
これらの制約を克服するため,MLLMと事前学習拡散モデルを組み合わせたエンドツーエンド画像編集フレームワークであるMIND-Editを提案する。
MIND-Editは,(1)MLLMからのセマンティック推論に基づく曖昧なユーザ指示を明確化するテキスト命令最適化戦略,(2)MLLMの本質的な視覚的理解能力を明確に活用して,編集意図を推論し,生成した視覚的埋め込みを通じて拡散プロセスを導くMLLMインテリジェンス駆動編集戦略,の2つの補完戦略を導入する。
さらに,両戦略を効果的に統合し,より正確な命令解釈とユーザ意図に沿った視覚的コヒーレントな編集を相互に強化する共同学習手法を提案する。
大規模な実験により、MIND-Editは、特に複雑で困難なシナリオ下で、定量的メトリクスと視覚的品質の両方において、最先端の画像編集方法より優れていることが示された。
関連論文リスト
- MLLM-Guided VLM Fine-Tuning with Joint Inference for Zero-Shot Composed Image Retrieval [50.062817677022586]
Zero-Shot Image Retrieval (ZS-CIR) メソッドは通常、参照イメージを擬似テキストトークンに変換するアダプタを訓練する。
MLLM-Guided VLM Fine-Tuning with Joint Inference (MVFT-JI) を提案する。
論文 参考訳(メタデータ) (2025-05-26T08:56:59Z) - POEM: Precise Object-level Editing via MLLM control [9.264835477745102]
マルチモーダル大言語モデル(MLLM)を用いたオブジェクトレベルの精密編集のためのフレームワークであるPOEMを提案する。
POEMはMLLMを利用して命令のプロンプトを分析し、変換前後に正確なオブジェクトマスクを生成する。
この構造化推論段階は、拡散に基づく編集プロセスをガイドし、正確なオブジェクトの局所化と変換を保証する。
論文 参考訳(メタデータ) (2025-04-10T20:12:00Z) - EVLM: Self-Reflective Multimodal Reasoning for Cross-Dimensional Visual Editing [27.578516354454063]
EVLM (Editing Vision-Language Model) は、参照視覚とともに曖昧な指示を解釈するように設計されている。
EVLMはバイナリラベルを必要とせずに主観的な編集の好みをキャプチャする。
画像、ビデオ、3D、および4D編集タスクにわたる実験は、EVLMが一貫性のある高品質な命令を生成することを示している。
論文 参考訳(メタデータ) (2024-12-13T21:15:01Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Incorporating Visual Experts to Resolve the Information Loss in
Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。
本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T02:02:34Z) - SmartEdit: Exploring Complex Instruction-based Image Editing with
Multimodal Large Language Models [91.22477798288003]
本稿では,命令ベースの画像編集の新しいアプローチであるSmartEditを紹介する。
MLLM(Multimodal Large Language Models)を利用して、その理解と推論能力を強化する。
我々は,より複雑な命令に対して,SmartEditの編集機能を効果的に刺激することのできる,少量の複雑な命令編集データを示す。
論文 参考訳(メタデータ) (2023-12-11T17:54:11Z) - Guiding Instruction-based Image Editing via Multimodal Large Language
Models [102.82211398699644]
マルチモーダル大言語モデル (MLLM) は, クロスモーダル理解と視覚応答生成において有望な能力を示す。
MLLMはどのようにして編集手順を容易にし、MGIE(MLLM-Guided Image Editing)を提示するかを検討する。
MGIEは表現的な指示を導き、明確なガイダンスを提供する。
論文 参考訳(メタデータ) (2023-09-29T10:01:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。