論文の概要: Lego-Edit: A General Image Editing Framework with Model-Level Bricks and MLLM Builder
- arxiv url: http://arxiv.org/abs/2509.12883v1
- Date: Tue, 16 Sep 2025 09:36:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.00758
- Title: Lego-Edit: A General Image Editing Framework with Model-Level Bricks and MLLM Builder
- Title(参考訳): Lego-Edit: Model-Level BricksとMLLM Builderを使った一般的なイメージ編集フレームワーク
- Authors: Qifei Jia, Yu Liu, Yajie Chai, Xintong Yao, Qiming Lu, Yasen Zhang, Runyu Shi, Ying Huang, Guoquan Zhang,
- Abstract要約: Lego-Editはこの課題に対処するために、モデルレベルの編集ツール群をまとめている。
Lego-Edit には,(1) MLLM による編集動作のきめ細かい構成を可能にする,制限データと複数の画像操作機能に基づいて効率的に訓練された多種多様なモデルからなるモデルレベルのツールキット,(2) MLLM をトレーニングするための無注釈のオープンドメイン命令に対するフィードバックを利用する3段階のプログレッシブ強化学習手法が組み込まれている。
- 参考スコア(独自算出の注目度): 5.7175031100654055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction-based image editing has garnered significant attention due to its direct interaction with users. However, real-world user instructions are immensely diverse, and existing methods often fail to generalize effectively to instructions outside their training domain, limiting their practical application. To address this, we propose Lego-Edit, which leverages the generalization capability of Multi-modal Large Language Model (MLLM) to organize a suite of model-level editing tools to tackle this challenge. Lego-Edit incorporates two key designs: (1) a model-level toolkit comprising diverse models efficiently trained on limited data and several image manipulation functions, enabling fine-grained composition of editing actions by the MLLM; and (2) a three-stage progressive reinforcement learning approach that uses feedback on unannotated, open-domain instructions to train the MLLM, equipping it with generalized reasoning capabilities for handling real-world instructions. Experiments demonstrate that Lego-Edit achieves state-of-the-art performance on GEdit-Bench and ImgBench. It exhibits robust reasoning capabilities for open-domain instructions and can utilize newly introduced editing tools without additional fine-tuning. Code is available: https://github.com/xiaomi-research/lego-edit.
- Abstract(参考訳): インストラクションベースの画像編集は、ユーザーと直接対話するため、大きな注目を集めている。
しかし、現実世界のユーザ命令は非常に多様であり、既存のメソッドはトレーニング領域外の命令に効果的に一般化することができず、実用的利用が制限されることが多い。
そこで本稿では,MLLM(Multi-modal Large Language Model)の一般化機能を活用したLego-Editを提案する。
Lego-Edit には,(1) MLLM による編集動作のきめ細かな構成を可能にする,限られたデータに基づいて効率的に訓練された多種多様なモデルと複数の画像操作機能からなるモデルレベルのツールキット,(2) MLLM をトレーニングするための無注釈のオープンドメイン命令へのフィードバックを利用する3段階のプログレッシブ・プログレッシブ・プログレッシブ・プログレッシブ・ラーニングアプローチが組み込まれ,実世界の命令を扱うための一般的な推論機能を備えている。
レゴ編集がGEdit-BenchとImgBenchで最先端のパフォーマンスを達成することを示す実験である。
オープンドメイン命令に対する堅牢な推論機能を備えており、新たに導入された編集ツールを追加の微調整なしで利用できる。
コードは、https://github.com/xiaomi-research/lego-edit.comで入手できる。
関連論文リスト
- FireEdit: Fine-grained Instruction-based Image Editing via Region-aware Vision Language Model [54.693572837423226]
FireEditは、Region対応のVLMを利用する、革新的なインストラクションベースの画像編集フレームワークである。
FireEditは、ユーザの指示を正確に理解し、編集プロセスの効果的な制御を保証するように設計されている。
提案手法は,最先端の命令ベース画像編集手法を超越した手法である。
論文 参考訳(メタデータ) (2025-03-25T16:59:42Z) - BrushEdit: All-In-One Image Inpainting and Editing [76.93556996538398]
BrushEditは、インペイントベースの命令誘導画像編集パラダイムである。
本研究では,MLLMとデュアルブランチ画像の描画モデルを統合することで,自由形式の命令編集を可能にするシステムを提案する。
本フレームワークは,MLLMとインパインティングモデルを効果的に組み合わせ,7つの指標で優れた性能を実現する。
論文 参考訳(メタデータ) (2024-12-13T17:58:06Z) - InstructEdit: Instruction-based Knowledge Editing for Large Language Models [39.2147118489123]
InstructEditと呼ばれる命令ベースの編集技術を開発し、簡単な命令を使って様々なタスクパフォーマンスへのエディタの適応を容易にする。
予期せぬタスクを含む実験は、InstructEditが以前の強いベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2024-02-25T15:46:33Z) - SmartEdit: Exploring Complex Instruction-based Image Editing with
Multimodal Large Language Models [91.22477798288003]
本稿では,命令ベースの画像編集の新しいアプローチであるSmartEditを紹介する。
MLLM(Multimodal Large Language Models)を利用して、その理解と推論能力を強化する。
我々は,より複雑な命令に対して,SmartEditの編集機能を効果的に刺激することのできる,少量の複雑な命令編集データを示す。
論文 参考訳(メタデータ) (2023-12-11T17:54:11Z) - Guiding Instruction-based Image Editing via Multimodal Large Language
Models [102.82211398699644]
マルチモーダル大言語モデル (MLLM) は, クロスモーダル理解と視覚応答生成において有望な能力を示す。
MLLMはどのようにして編集手順を容易にし、MGIE(MLLM-Guided Image Editing)を提示するかを検討する。
MGIEは表現的な指示を導き、明確なガイダンスを提供する。
論文 参考訳(メタデータ) (2023-09-29T10:01:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。