Fugu-MT 論文翻訳(概要): Guiding Instruction-based Image Editing via Multimodal Large Language Models

論文の概要: Guiding Instruction-based Image Editing via Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2309.17102v2
Date: Mon, 5 Feb 2024 05:04:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 04:52:41.117627
Title: Guiding Instruction-based Image Editing via Multimodal Large Language Models
Title（参考訳）: マルチモーダル大言語モデルによる命令に基づく画像編集の指導
Authors: Tsu-Jui Fu and Wenze Hu and Xianzhi Du and William Yang Wang and Yinfei Yang and Zhe Gan
Abstract要約: マルチモーダル大言語モデル (MLLM) は, クロスモーダル理解と視覚応答生成において有望な能力を示す。 MLLMはどのようにして編集手順を容易にし、MGIE(MLLM-Guided Image Editing)を提示するかを検討する。 MGIEは表現的な指示を導き、明確なガイダンスを提供する。
参考スコア（独自算出の注目度）: 102.82211398699644
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Instruction-based image editing improves the controllability and flexibility of image manipulation via natural commands without elaborate descriptions or regional masks. However, human instructions are sometimes too brief for current methods to capture and follow. Multimodal large language models (MLLMs) show promising capabilities in cross-modal understanding and visual-aware response generation via LMs. We investigate how MLLMs facilitate edit instructions and present MLLM-Guided Image Editing (MGIE). MGIE learns to derive expressive instructions and provides explicit guidance. The editing model jointly captures this visual imagination and performs manipulation through end-to-end training. We evaluate various aspects of Photoshop-style modification, global photo optimization, and local editing. Extensive experimental results demonstrate that expressive instructions are crucial to instruction-based image editing, and our MGIE can lead to a notable improvement in automatic metrics and human evaluation while maintaining competitive inference efficiency.
Abstract（参考訳）: インストラクションベースの画像編集は、詳細な説明や地域マスクのない自然なコマンドによる画像操作の制御性と柔軟性を向上させる。しかし、現在の方法では、人間の指示があまりにも簡潔すぎることがある。 MLLM(Multimodal large language model)は,マルチモーダル理解と視覚応答生成において有望な能力を示す。 MLLMはどのようにして編集手順を容易にし、MGIE(MLLM-Guided Image Editing)を提示するかを検討する。 MGIEは表現的な指示を導き、明確なガイダンスを提供する。編集モデルは、この視覚的想像力を共同で捉え、エンドツーエンドのトレーニングを通じて操作を行う。 photoshopスタイルの修正,グローバル写真最適化,ローカル編集のさまざまな側面を評価した。広範な実験結果から,表現的指示は命令に基づく画像編集に不可欠であることが示され,mgieは競争的推論効率を維持しつつ,自動計測や人間評価において顕著な改善をもたらす可能性がある。

関連論文リスト

RetouchIQ: MLLM Agents for Instruction-Based Image Retouching with Generalist Reward [64.78078130943489]
本稿では、報酬モデルでガイドされたMLLMエージェントを介して命令ベースの実行可能画像編集を行うフレームワークであるRetouchIQを紹介する。 RetouchIQは従来のMLLMベースの編集システムや拡散ベースの編集システムよりも意味的一貫性と知覚的品質の両方を大幅に改善することを示す。
論文参考訳（メタデータ） (2026-02-19T17:11:59Z)
TalkPhoto: A Versatile Training-Free Conversational Assistant for Intelligent Image Editing [21.708181904910177]
MLLM(Multimodal Large Language Models)は、命令と画像間の情報交換を促進する。これらのフレームワークは、複数の編集タスクを処理するためにモデルをトレーニングするために、しばしばマルチインストラクションデータセットを構築する。本研究では,対話型インタラクションによる正確な画像操作を容易にする,多目的なトレーニング不要な画像編集フレームワークであるTalkPhotoを紹介する。
論文参考訳（メタデータ） (2026-01-05T09:00:32Z)
MIRA: Multimodal Iterative Reasoning Agent for Image Editing [48.41212094929379]
本稿では,MIRA(Multimodal Iterative Reasoning Agent)を提案する。単一のプロンプトや静的プランを発行する代わりに、MIRAは、視覚的なフィードバックを使用して、その決定を行うために、段階的にアトミックな編集命令を予測する。われわれの150Kマルチモーダルツール使用データセットであるMIRA-Editingと2段階のSFT + GRPOトレーニングパイプラインを組み合わせることで、MIRAは複雑な編集命令に対して推論と編集を行うことができる。
論文参考訳（メタデータ） (2025-11-26T06:13:32Z)
MIND-Edit: MLLM Insight-Driven Editing via Language-Vision Projection [13.467269066605452]
MLLMと事前学習拡散モデルを組み合わせたエンドツーエンド画像編集フレームワークであるMIND-Editを提案する。 MIND-Editは,(1)MLLMからの意味的推論に基づく曖昧なユーザ指示を明確化するテキスト命令最適化戦略,(2)MLLMの本質的な視覚的理解能力を明示的に活用して編集意図を推測するMLLM洞察駆動型編集戦略,の2つの補完戦略を導入している。大規模な実験により、MIND-Editは、特に複雑で困難なシナリオにおいて、定量的メトリクスと視覚的品質の両方において、最先端の画像編集方法より優れていることが示された。
論文参考訳（メタデータ） (2025-05-25T13:54:31Z)
Image-Editing Specialists: An RLAIF Approach for Diffusion Models [28.807572302899004]
本稿では,特殊命令に基づく画像編集拡散モデルを訓練するための新しいアプローチを提案する。拡散モデルと人間の嗜好を一致させるオンライン強化学習フレームワークを導入する。実験結果から, 複雑なシーンにおいて, 10ステップで複雑な編集を行うことができることがわかった。
論文参考訳（メタデータ） (2025-04-17T10:46:39Z)
POEM: Precise Object-level Editing via MLLM control [9.264835477745102]
マルチモーダル大言語モデル(MLLM)を用いたオブジェクトレベルの精密編集のためのフレームワークであるPOEMを提案する。 POEMはMLLMを利用して命令のプロンプトを分析し、変換前後に正確なオブジェクトマスクを生成する。この構造化推論段階は、拡散に基づく編集プロセスをガイドし、正確なオブジェクトの局所化と変換を保証する。
論文参考訳（メタデータ） (2025-04-10T20:12:00Z)
FireEdit: Fine-grained Instruction-based Image Editing via Region-aware Vision Language Model [54.693572837423226]
FireEditは、Region対応のVLMを利用する、革新的なインストラクションベースの画像編集フレームワークである。 FireEditは、ユーザの指示を正確に理解し、編集プロセスの効果的な制御を保証するように設計されている。提案手法は,最先端の命令ベース画像編集手法を超越した手法である。
論文参考訳（メタデータ） (2025-03-25T16:59:42Z)
BrushEdit: All-In-One Image Inpainting and Editing [79.55816192146762]
BrushEditは、インペイントベースの命令誘導画像編集パラダイムである。本研究では,MLLMとデュアルブランチ画像の描画モデルを統合することで,自由形式の命令編集を可能にするシステムを提案する。本フレームワークは,MLLMとインパインティングモデルを効果的に組み合わせ,7つの指標で優れた性能を実現する。
論文参考訳（メタデータ） (2024-12-13T17:58:06Z)
Image Inpainting Models are Effective Tools for Instruction-guided Image Editing [42.63350374074953]
CVPR2024 GenAI Media Generation Challenge Workshop's Instruction-guided Image Editing Trackの優勝作品である。 4段階のプロセスIIIE (Inpainting-based Instruction-Guided Image Editing): カテゴリ分類、主編集対象識別、編集マスク取得、画像インパインティング。その結果,言語モデルと画像インパインティングモデルの適切な組み合わせによって,パイプラインは視覚的品質を満足して高い成功率を達成することができた。
論文参考訳（メタデータ） (2024-07-18T03:55:33Z)
EditWorld: Simulating World Dynamics for Instruction-Following Image Editing [68.6224340373457]
拡散モデルは画像編集の性能を大幅に改善した。本稿では,様々な世界シナリオに根ざした命令を定義し,分類する,世界指導による画像編集について紹介する。本手法は,既存の編集方法よりも大幅に優れる。
論文参考訳（メタデータ） (2024-05-23T16:54:17Z)
InstructBrush: Learning Attention-based Instruction Optimization for Image Editing [54.07526261513434]
InstructBrushは命令ベースの画像編集方法の逆変換手法である。画像ペアから編集命令として編集効果を抽出し、さらに画像編集に適用する。提案手法は,編集性能に優れ,目的の編集効果とセマンティックに一致している。
論文参考訳（メタデータ） (2024-03-27T15:03:38Z)
SmartEdit: Exploring Complex Instruction-based Image Editing with Multimodal Large Language Models [91.22477798288003]
本稿では,命令ベースの画像編集の新しいアプローチであるSmartEditを紹介する。 MLLM(Multimodal Large Language Models)を利用して、その理解と推論能力を強化する。我々は,より複雑な命令に対して,SmartEditの編集機能を効果的に刺激することのできる,少量の複雑な命令編集データを示す。
論文参考訳（メタデータ） (2023-12-11T17:54:11Z)
LLMGA: Multimodal Large Language Model based Generation Assistant [53.150283805515926]
画像生成と編集を支援するマルチモーダル大規模言語モデルベース生成アシスタント(LLMGA)を提案する。我々はMLLMを訓練し、画像生成と編集の特性を把握し、詳細なプロンプトを生成する。広範な結果から、LLMGAは将来的な生成と編集機能を備えており、より柔軟で拡張性の高いアプリケーションを可能にすることが示されている。
論文参考訳（メタデータ） (2023-11-27T13:37:26Z)
Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。 Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文参考訳（メタデータ） (2023-11-16T18:55:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。