論文の概要: InstructX: Towards Unified Visual Editing with MLLM Guidance
- arxiv url: http://arxiv.org/abs/2510.08485v1
- Date: Thu, 09 Oct 2025 17:26:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.245076
- Title: InstructX: Towards Unified Visual Editing with MLLM Guidance
- Title(参考訳): InstructX: MLLMガイダンスによる統一ビジュアル編集を目指して
- Authors: Chong Mou, Qichao Sun, Yanze Wu, Pengze Zhang, Xinghui Li, Fulong Ye, Songtao Zhao, Qian He,
- Abstract要約: InstructXは画像とビデオの編集を統一したフレームワークである。
画像データのトレーニングは、明示的な監督なしに、創発的な映像編集能力をもたらす可能性があることを示す。
本手法は,モダリティ固有のMLLM機能を組み込むことで,画像編集タスクと映像編集タスクを1つのモデルに効果的に統合する。
- 参考スコア(独自算出の注目度): 29.397808703869075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With recent advances in Multimodal Large Language Models (MLLMs) showing strong visual understanding and reasoning, interest is growing in using them to improve the editing performance of diffusion models. Despite rapid progress, most studies lack an in-depth analysis of MLLM design choices. Moreover, the integration of MLLMs and diffusion models remains an open challenge in some difficult tasks, such as video editing. In this paper, we present InstructX, a unified framework for image and video editing. Specifically, we conduct a comprehensive study on integrating MLLMs and diffusion models for instruction-driven editing across diverse tasks. Building on this study, we analyze the cooperation and distinction between images and videos in unified modeling. (1) We show that training on image data can lead to emergent video editing capabilities without explicit supervision, thereby alleviating the constraints imposed by scarce video training data. (2) By incorporating modality-specific MLLM features, our approach effectively unifies image and video editing tasks within a single model. Extensive experiments demonstrate that our method can handle a broad range of image and video editing tasks and achieves state-of-the-art performance.
- Abstract(参考訳): 近年のMLLM(Multimodal Large Language Models)の進歩により,拡散モデルの編集性能向上への関心が高まっている。
急速な進歩にもかかわらず、ほとんどの研究はMLLMの設計選択に関する詳細な分析を欠いている。
さらに、MLLMと拡散モデルの統合は、ビデオ編集などの難しいタスクにおいて、依然としてオープンな課題である。
本稿では,画像編集と映像編集のための統合フレームワークであるInstructXを提案する。
具体的には,MLLMと拡散モデルの統合に関する総合的研究を行い,多種多様なタスクを対象とした命令駆動編集を行う。
本研究は,統合モデリングにおける画像と映像の協調と区別について分析する。
1) 画像データのトレーニングは,映像編集能力の向上につながる可能性を示し,映像学習データ不足による制約を緩和する。
2)モダリティ固有のMLLM特徴を取り入れることで,単一のモデルに画像編集タスクと映像編集タスクを効果的に統合する。
大規模な実験により,本手法は広い範囲の映像・映像編集タスクを処理し,最先端の性能を実現することができることが示された。
関連論文リスト
- Omni-Video 2: Scaling MLLM-Conditioned Diffusion for Unified Video Generation and Editing [21.525921468472685]
本稿では,事前訓練されたマルチモーダル大言語モデル(MLLM)とビデオ拡散モデルとを接続し,ビデオ生成と編集を行うスケーラブルで効率的なモデルを提案する。
我々のキーとなる考え方は、MLLMの理解と推論能力を利用して、明示的なターゲットキャプションを生成し、ユーザー指示を解釈することである。
我々は,微細なビデオ編集のためのFiVEベンチマークとテキスト・ツー・ビデオ生成のためのVBenchベンチマークにおいて,Omni-Video 2の性能を評価する。
論文 参考訳(メタデータ) (2026-02-09T15:56:05Z) - TalkPhoto: A Versatile Training-Free Conversational Assistant for Intelligent Image Editing [21.708181904910177]
MLLM(Multimodal Large Language Models)は、命令と画像間の情報交換を促進する。
これらのフレームワークは、複数の編集タスクを処理するためにモデルをトレーニングするために、しばしばマルチインストラクションデータセットを構築する。
本研究では,対話型インタラクションによる正確な画像操作を容易にする,多目的なトレーニング不要な画像編集フレームワークであるTalkPhotoを紹介する。
論文 参考訳(メタデータ) (2026-01-05T09:00:32Z) - EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning [58.53074381801114]
イメージとビデオの生成と編集を単一のモデルで統合したフレームワークであるEditVerseを紹介する。
テキスト、画像、ビデオなどのすべてのモダリティを統一されたトークンシーケンスとして表現することで、EditVerseは、堅牢なインコンテキスト学習を実現するために自己アテンションを活用する。
多様なタスクや解像度をカバーする命令ベースのビデオ編集のための最初のベンチマークであるEditVerseBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T17:59:30Z) - Omni-Video: Democratizing Unified Video Understanding and Generation [13.616454543808798]
本報告では,映像理解,生成,および命令ベースの編集のための効率的かつ効果的な統合フレームワークであるOmni-Videoについて述べる。
我々の重要な洞察は、拡散デコーダの入力として使用される連続的な視覚的手がかりを生成するために、既存のマルチモーダル大言語モデル(MLLM)を教えることである。
統合ビデオモデリングシステムの可能性を完全に解き明かすため,いくつかの技術的改善を取り入れた。
論文 参考訳(メタデータ) (2025-07-08T16:02:16Z) - MIND-Edit: MLLM Insight-Driven Editing via Language-Vision Projection [13.467269066605452]
MLLMと事前学習拡散モデルを組み合わせたエンドツーエンド画像編集フレームワークであるMIND-Editを提案する。
MIND-Editは,(1)MLLMからの意味的推論に基づく曖昧なユーザ指示を明確化するテキスト命令最適化戦略,(2)MLLMの本質的な視覚的理解能力を明示的に活用して編集意図を推測するMLLM洞察駆動型編集戦略,の2つの補完戦略を導入している。
大規模な実験により、MIND-Editは、特に複雑で困難なシナリオにおいて、定量的メトリクスと視覚的品質の両方において、最先端の画像編集方法より優れていることが示された。
論文 参考訳(メタデータ) (2025-05-25T13:54:31Z) - VEGGIE: Instructional Editing and Reasoning of Video Concepts with Grounded Generation [67.31149310468801]
本稿では,VEGGIEを紹介する。VEGGIEは,多様なユーザインストラクションに基づいて,ビデオコンセプトの編集,グラウンド化,推論を統一する,シンプルなエンドツーエンドフレームワークである。
VEGGIEは、異なる編集スキルを持つ指導ビデオ編集において高い性能を示し、汎用モデルとして最高の指導ベースラインを達成している。
論文 参考訳(メタデータ) (2025-03-18T15:31:12Z) - Instruction-Guided Editing Controls for Images and Multimedia: A Survey in LLM era [50.19334853510935]
命令ベースの編集の最近の進歩は、ユーザ意図と複雑な編集操作の間の橋渡しとして自然言語を用いて、視覚コンテンツとの直感的な対話を可能にしている。
我々は,エンターテイメントから教育に至るまで,様々な産業において強力なビジュアル編集を民主化することを目指している。
論文 参考訳(メタデータ) (2024-11-15T05:18:15Z) - VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding [65.12464615430036]
本稿では,Large Language Models (LLM) の推論能力に基づくビデオ理解・推論フレームワーク (VURF) を提案する。
ビデオタスクのコンテキストにおいてLLMの実用性を拡張し,最小限のインプットとアウトプットのデモをコンテキストフレームワーク内で一般化する,新たなアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-21T18:00:00Z) - SmartEdit: Exploring Complex Instruction-based Image Editing with
Multimodal Large Language Models [91.22477798288003]
本稿では,命令ベースの画像編集の新しいアプローチであるSmartEditを紹介する。
MLLM(Multimodal Large Language Models)を利用して、その理解と推論能力を強化する。
我々は,より複雑な命令に対して,SmartEditの編集機能を効果的に刺激することのできる,少量の複雑な命令編集データを示す。
論文 参考訳(メタデータ) (2023-12-11T17:54:11Z) - Guiding Instruction-based Image Editing via Multimodal Large Language
Models [102.82211398699644]
マルチモーダル大言語モデル (MLLM) は, クロスモーダル理解と視覚応答生成において有望な能力を示す。
MLLMはどのようにして編集手順を容易にし、MGIE(MLLM-Guided Image Editing)を提示するかを検討する。
MGIEは表現的な指示を導き、明確なガイダンスを提供する。
論文 参考訳(メタデータ) (2023-09-29T10:01:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。