論文の概要: InstructX: Towards Unified Visual Editing with MLLM Guidance
- arxiv url: http://arxiv.org/abs/2510.08485v1
- Date: Thu, 09 Oct 2025 17:26:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.245076
- Title: InstructX: Towards Unified Visual Editing with MLLM Guidance
- Title(参考訳): InstructX: MLLMガイダンスによる統一ビジュアル編集を目指して
- Authors: Chong Mou, Qichao Sun, Yanze Wu, Pengze Zhang, Xinghui Li, Fulong Ye, Songtao Zhao, Qian He,
- Abstract要約: InstructXは画像とビデオの編集を統一したフレームワークである。
画像データのトレーニングは、明示的な監督なしに、創発的な映像編集能力をもたらす可能性があることを示す。
本手法は,モダリティ固有のMLLM機能を組み込むことで,画像編集タスクと映像編集タスクを1つのモデルに効果的に統合する。
- 参考スコア(独自算出の注目度): 29.397808703869075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With recent advances in Multimodal Large Language Models (MLLMs) showing strong visual understanding and reasoning, interest is growing in using them to improve the editing performance of diffusion models. Despite rapid progress, most studies lack an in-depth analysis of MLLM design choices. Moreover, the integration of MLLMs and diffusion models remains an open challenge in some difficult tasks, such as video editing. In this paper, we present InstructX, a unified framework for image and video editing. Specifically, we conduct a comprehensive study on integrating MLLMs and diffusion models for instruction-driven editing across diverse tasks. Building on this study, we analyze the cooperation and distinction between images and videos in unified modeling. (1) We show that training on image data can lead to emergent video editing capabilities without explicit supervision, thereby alleviating the constraints imposed by scarce video training data. (2) By incorporating modality-specific MLLM features, our approach effectively unifies image and video editing tasks within a single model. Extensive experiments demonstrate that our method can handle a broad range of image and video editing tasks and achieves state-of-the-art performance.
- Abstract(参考訳): 近年のMLLM(Multimodal Large Language Models)の進歩により,拡散モデルの編集性能向上への関心が高まっている。
急速な進歩にもかかわらず、ほとんどの研究はMLLMの設計選択に関する詳細な分析を欠いている。
さらに、MLLMと拡散モデルの統合は、ビデオ編集などの難しいタスクにおいて、依然としてオープンな課題である。
本稿では,画像編集と映像編集のための統合フレームワークであるInstructXを提案する。
具体的には,MLLMと拡散モデルの統合に関する総合的研究を行い,多種多様なタスクを対象とした命令駆動編集を行う。
本研究は,統合モデリングにおける画像と映像の協調と区別について分析する。
1) 画像データのトレーニングは,映像編集能力の向上につながる可能性を示し,映像学習データ不足による制約を緩和する。
2)モダリティ固有のMLLM特徴を取り入れることで,単一のモデルに画像編集タスクと映像編集タスクを効果的に統合する。
大規模な実験により,本手法は広い範囲の映像・映像編集タスクを処理し,最先端の性能を実現することができることが示された。
関連論文リスト
- Omni-Video: Democratizing Unified Video Understanding and Generation [13.616454543808798]
本報告では,映像理解,生成,および命令ベースの編集のための効率的かつ効果的な統合フレームワークであるOmni-Videoについて述べる。
我々の重要な洞察は、拡散デコーダの入力として使用される連続的な視覚的手がかりを生成するために、既存のマルチモーダル大言語モデル(MLLM)を教えることである。
統合ビデオモデリングシステムの可能性を完全に解き明かすため,いくつかの技術的改善を取り入れた。
論文 参考訳(メタデータ) (2025-07-08T16:02:16Z) - VEGGIE: Instructional Editing and Reasoning of Video Concepts with Grounded Generation [67.31149310468801]
本稿では,VEGGIEを紹介する。VEGGIEは,多様なユーザインストラクションに基づいて,ビデオコンセプトの編集,グラウンド化,推論を統一する,シンプルなエンドツーエンドフレームワークである。
VEGGIEは、異なる編集スキルを持つ指導ビデオ編集において高い性能を示し、汎用モデルとして最高の指導ベースラインを達成している。
論文 参考訳(メタデータ) (2025-03-18T15:31:12Z) - Instruction-Guided Editing Controls for Images and Multimedia: A Survey in LLM era [50.19334853510935]
命令ベースの編集の最近の進歩は、ユーザ意図と複雑な編集操作の間の橋渡しとして自然言語を用いて、視覚コンテンツとの直感的な対話を可能にしている。
我々は,エンターテイメントから教育に至るまで,様々な産業において強力なビジュアル編集を民主化することを目指している。
論文 参考訳(メタデータ) (2024-11-15T05:18:15Z) - SmartEdit: Exploring Complex Instruction-based Image Editing with
Multimodal Large Language Models [91.22477798288003]
本稿では,命令ベースの画像編集の新しいアプローチであるSmartEditを紹介する。
MLLM(Multimodal Large Language Models)を利用して、その理解と推論能力を強化する。
我々は,より複雑な命令に対して,SmartEditの編集機能を効果的に刺激することのできる,少量の複雑な命令編集データを示す。
論文 参考訳(メタデータ) (2023-12-11T17:54:11Z) - Guiding Instruction-based Image Editing via Multimodal Large Language
Models [102.82211398699644]
マルチモーダル大言語モデル (MLLM) は, クロスモーダル理解と視覚応答生成において有望な能力を示す。
MLLMはどのようにして編集手順を容易にし、MGIE(MLLM-Guided Image Editing)を提示するかを検討する。
MGIEは表現的な指示を導き、明確なガイダンスを提供する。
論文 参考訳(メタデータ) (2023-09-29T10:01:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。