論文の概要: MSRAMIE: Multimodal Structured Reasoning Agent for Multi-instruction Image Editing
- arxiv url: http://arxiv.org/abs/2603.16967v1
- Date: Tue, 17 Mar 2026 09:05:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.310858
- Title: MSRAMIE: Multimodal Structured Reasoning Agent for Multi-instruction Image Editing
- Title(参考訳): MSRAMIE:マルチインストラクション画像編集のためのマルチモーダル構造化推論エージェント
- Authors: Zhaoyuan Qiu, Ken Chen, Xiangwei Wang, Yu Xia, Sachith Seneviratne, Saman Halgamuge,
- Abstract要約: MLLM(Multimodal Large Language Model)に基づくトレーニングフリーエージェントフレームワークであるMSRAMIEを提案する。
MSRAMIEは既存の編集モデルをプラグインコンポーネントとして扱い、構造化マルチモーダル推論によるマルチインストラクションタスクを処理する。
実験によると、命令の複雑さが増大するにつれて、MSRAMIEは15%以上の命令を改善でき、単一の実行ですべての修正を完了させる確率が100%上がる。
- 参考スコア(独自算出の注目度): 6.097400596282323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing instruction-based image editing models perform well with simple, single-step instructions but degrade in realistic scenarios that involve multiple, lengthy, and interdependent directives. A main cause is the scarcity of training data with complex multi-instruction annotations. However, it is costly to collect such data and retrain these models. To address this challenge, we propose MSRAMIE, a training-free agent framework built on Multimodal Large Language Model (MLLM). MSRAMIE takes existing editing models as plug-in components and handle multi-instruction tasks via structured multimodal reasoning. It orchestrates iterative interactions between an MLLM-based Instructor and an image editing Actor, introducing a novel reasoning topology that comprises the proposed Tree-of-States and Graph-of-References. During inference, complex instructions are decomposed into multiple editing steps which enable state transitions, cross-step information aggregation, and original input recall, which enables systematic exploration of the image editing space and flexible progressive output refinement. The visualizable inference topology further provides interpretable and controllable decision pathways. Experiments show that as the instruction complexity increases, MSRAMIE can improve instruction following over 15% and increases the probability of finishing all modifications in a single run over 100%, while preserving perceptual quality and maintaining visual consistency.
- Abstract(参考訳): 既存の命令ベースの画像編集モデルは、単純な単一ステップの命令でうまく機能するが、複数の、長い、依存関係のあるディレクティブを含む現実的なシナリオでは劣化する。
主な原因は、複雑なマルチインストラクションアノテーションによるトレーニングデータの不足である。
しかし、こうしたデータを収集し、これらのモデルを再訓練することはコストがかかる。
この課題に対処するため,Multimodal Large Language Model (MLLM)上に構築されたトレーニングフリーエージェントフレームワークであるMSRAMIEを提案する。
MSRAMIEは既存の編集モデルをプラグインコンポーネントとして扱い、構造化マルチモーダル推論によるマルチインストラクションタスクを処理する。
MLLMベースのインストラクタと画像編集アクタ間の反復的な相互作用をオーケストレーションし、提案したTree-of-StatesとGraph-of-Referencesを組み合わせた新しい推論トポロジーを導入する。
推論中、複雑な命令を複数の編集ステップに分解し、状態遷移、横断的な情報集約、元の入力リコールを可能にし、画像編集空間の体系的な探索とフレキシブルなプログレッシブな出力改善を可能にする。
可視的推論トポロジーはさらに解釈可能かつ制御可能な決定経路を提供する。
実験の結果、命令の複雑さが増大するにつれて、MSRAMIEは15%以上の命令を改善でき、知覚品質を保ちながら視覚的整合性を保ちながら、1回の実行ですべての修正を完了する確率を100%以上向上することが示された。
関連論文リスト
- MIRA: Multimodal Iterative Reasoning Agent for Image Editing [48.41212094929379]
本稿では,MIRA(Multimodal Iterative Reasoning Agent)を提案する。
単一のプロンプトや静的プランを発行する代わりに、MIRAは、視覚的なフィードバックを使用して、その決定を行うために、段階的にアトミックな編集命令を予測する。
われわれの150Kマルチモーダルツール使用データセットであるMIRA-Editingと2段階のSFT + GRPOトレーニングパイプラインを組み合わせることで、MIRAは複雑な編集命令に対して推論と編集を行うことができる。
論文 参考訳(メタデータ) (2025-11-26T06:13:32Z) - GraphIF: Enhancing Multi-Turn Instruction Following for Large Language Models with Relation Graph Prompt [8.491557907744523]
対話を通した命令に従うインテリジェントな対話システムを構築するためには,マルチターンインストラクションが不可欠である。
既存のマルチターン命令の強化アプローチは、主に大規模なマルチターン対話データセットの収集や生成に依存している。
マルチターン対話を有向関係グラフとしてモデル化し,グラフプロンプトを活用して命令追従機能を向上させるための,プラグイン・アンド・プレイフレームワークであるGraphIFを提案する。
論文 参考訳(メタデータ) (2025-11-13T07:49:38Z) - Compositional Image Retrieval via Instruction-Aware Contrastive Learning [40.54022628032561]
Composed Image Retrieval (CIR)は、テキストとペアリングした画像の合成クエリに基づいてターゲットイメージを検索する。
実際には、下流タスクにおけるアノテートデータの不足のため、ゼロショットCIR(ZS-CIR)が望ましい。
命令調整型マルチモーダルLLM(MLLM)を用いて合成表現を生成する新しい埋め込み手法を提案する。
論文 参考訳(メタデータ) (2024-12-07T22:46:52Z) - Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning [125.79428219851289]
Inst-ITは、明示的な視覚的プロンプトインストラクションチューニングを通じてインスタンス理解におけるLMMを強化するソリューションである。
Inst-ITは、マルチモーダルなインスタンスレベルの理解を診断するためのベンチマーク、大規模命令チューニングデータセット、継続的命令チューニングトレーニングパラダイムで構成されている。
論文 参考訳(メタデータ) (2024-12-04T18:58:10Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々はDraw-and-Understandフレームワークを提案し、視覚的プロンプト理解機能をMLLM(Multimodal Large Language Models)に統合する方法を探る。
視覚的なプロンプトにより、ユーザーはマルチモーダルなインストラクションを通じて対話することができ、モデルの対話性ときめ細かなイメージ理解を高めることができる。
本稿では,様々な学習済みMLLMに適応し,様々な視覚的プロンプトを認識可能な汎用アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - SmartEdit: Exploring Complex Instruction-based Image Editing with
Multimodal Large Language Models [91.22477798288003]
本稿では,命令ベースの画像編集の新しいアプローチであるSmartEditを紹介する。
MLLM(Multimodal Large Language Models)を利用して、その理解と推論能力を強化する。
我々は,より複雑な命令に対して,SmartEditの編集機能を効果的に刺激することのできる,少量の複雑な命令編集データを示す。
論文 参考訳(メタデータ) (2023-12-11T17:54:11Z) - Guiding Instruction-based Image Editing via Multimodal Large Language
Models [102.82211398699644]
マルチモーダル大言語モデル (MLLM) は, クロスモーダル理解と視覚応答生成において有望な能力を示す。
MLLMはどのようにして編集手順を容易にし、MGIE(MLLM-Guided Image Editing)を提示するかを検討する。
MGIEは表現的な指示を導き、明確なガイダンスを提供する。
論文 参考訳(メタデータ) (2023-09-29T10:01:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。