論文の概要: IMAGEdit: Let Any Subject Transform
- arxiv url: http://arxiv.org/abs/2510.01186v1
- Date: Wed, 01 Oct 2025 17:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.72524
- Title: IMAGEdit: Let Any Subject Transform
- Title(参考訳): Imagedit:どんな主題も変換できる
- Authors: Fei Shen, Weihao Xu, Rui Yan, Dong Zhang, Xiangbo Shu, Jinhui Tang,
- Abstract要約: imageditは、ビデオの被写体編集のためのトレーニング不要のフレームワークである。
非標的領域を維持しながら、複数の指定対象の外観を操作する。
マスク駆動型ビデオ生成モデルと互換性がある。
- 参考スコア(独自算出の注目度): 61.666509860041124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present IMAGEdit, a training-free framework for any number of video subject editing that manipulates the appearances of multiple designated subjects while preserving non-target regions, without finetuning or retraining. We achieve this by providing robust multimodal conditioning and precise mask sequences through a prompt-guided multimodal alignment module and a prior-based mask retargeting module. We first leverage large models' understanding and generation capabilities to produce multimodal information and mask motion sequences for multiple subjects across various types. Then, the obtained prior mask sequences are fed into a pretrained mask-driven video generation model to synthesize the edited video. With strong generalization capability, IMAGEdit remedies insufficient prompt-side multimodal conditioning and overcomes mask boundary entanglement in videos with any number of subjects, thereby significantly expanding the applicability of video editing. More importantly, IMAGEdit is compatible with any mask-driven video generation model, significantly improving overall performance. Extensive experiments on our newly constructed multi-subject benchmark MSVBench verify that IMAGEdit consistently surpasses state-of-the-art methods. Code, models, and datasets are publicly available at https://github.com/XWH-A/IMAGEdit.
- Abstract(参考訳): 本稿では,複数の指定した被写体の外観を微調整や再訓練をすることなく,非対象領域を保存しながら操作する映像編集用トレーニングフリーフレームワークである imagedit を提案する。
我々は,プロンプト誘導型マルチモーダルアライメントモジュールと,それ以前のマスクリターゲティングモジュールによって,ロバストなマルチモーダルコンディショニングと正確なマスクシーケンスを提供する。
まず、大規模モデルの理解と生成機能を活用して、多モード情報とマスク動作シーケンスを多種多様な被験者に対して生成する。
そして、得られた先行マスクシーケンスを予め訓練されたマスク駆動ビデオ生成モデルに入力し、編集されたビデオを合成する。
強力な一般化能力により、Imageditはプロンプト側のマルチモーダル条件を不十分に修正し、被写体数の多いビデオにおけるマスク境界の絡みを克服し、ビデオ編集の適用性を大幅に拡大する。
さらに重要なのは、Imageditはマスク駆動のビデオ生成モデルと互換性があり、全体的なパフォーマンスが大幅に向上していることだ。
新たに構築したマルチオブジェクトベンチマークMSVBenchの大規模な実験により、Imageditが最先端の手法を一貫して超越していることが確認された。
コード、モデル、データセットはhttps://github.com/XWH-A/IMAGEditで公開されている。
関連論文リスト
- Follow-Your-Creation: Empowering 4D Creation through Video Inpainting [47.08187788419001]
Follow-Your-Creationは、単一のモノクロビデオ入力から4Dコンテンツを生成および編集できるフレームワークである。
映像インパインティング基礎モデルを生成先行として活用することにより、4次元映像作成を映像インパインティングタスクとして再構成する。
論文 参考訳(メタデータ) (2025-06-05T03:11:48Z) - MAKIMA: Tuning-free Multi-Attribute Open-domain Video Editing via Mask-Guided Attention Modulation [55.101611012677616]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは,グローバルビデオ編集タスクにおいて顕著な結果を示した。
我々は、オープンドメインビデオ編集のための事前訓練されたT2Iモデル上に構築された、チューニング不要なMAEフレームワークであるMAKIMAを紹介する。
論文 参考訳(メタデータ) (2024-12-28T02:36:51Z) - BrushEdit: All-In-One Image Inpainting and Editing [76.93556996538398]
BrushEditは、インペイントベースの命令誘導画像編集パラダイムである。
本研究では,MLLMとデュアルブランチ画像の描画モデルを統合することで,自由形式の命令編集を可能にするシステムを提案する。
本フレームワークは,MLLMとインパインティングモデルを効果的に組み合わせ,7つの指標で優れた性能を実現する。
論文 参考訳(メタデータ) (2024-12-13T17:58:06Z) - Moonshot: Towards Controllable Video Generation and Editing with
Multimodal Conditions [94.03133100056372]
Moonshotは、画像とテキストのマルチモーダル入力を同時に処理する新しいビデオ生成モデルである。
モデルは、パーソナライズされたビデオ生成、画像アニメーション、ビデオ編集など、様々な生成アプリケーションに容易に再利用できる。
論文 参考訳(メタデータ) (2024-01-03T16:43:47Z) - MaskINT: Video Editing via Interpolative Non-autoregressive Masked Transformers [30.924202893340087]
最先端のアプローチは主にこれらのタスクを達成するために拡散モデルに依存している。
本稿では,テキストベースのビデオ編集タスクを2段階に分割する。
まず、事前訓練されたテキスト・画像拡散モデルを用いて、ゼロショット方式で少数者を同時に編集する。
第2に,非自己回帰マスク生成変換器をベースとしたMaskINTという効率的なモデルを提案する。
論文 参考訳(メタデータ) (2023-12-19T07:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。