Fugu-MT 論文翻訳(概要): Edit as You See: Image-guided Video Editing via Masked Motion Modeling

論文の概要: Edit as You See: Image-guided Video Editing via Masked Motion Modeling

arxiv url: http://arxiv.org/abs/2501.04325v1
Date: Wed, 08 Jan 2025 07:52:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-09 16:10:19.57825
Title: Edit as You See: Image-guided Video Editing via Masked Motion Modeling
Title（参考訳）: Image-Guided Video Editing by Masked Motion Modeling (動画)
Authors: Zhi-Lin Huang, Yixuan Liu, Chujun Qin, Zhongdao Wang, Dong Zhou, Dong Li, Emad Barsoum,
Abstract要約: 画像誘導映像編集拡散モデル(IVEDiff)を提案する。 IVEDiffは画像編集モデル上に構築されており、ビデオ編集の時間的一貫性を維持するための学習可能なモーションモジュールを備えている。本手法は,高画質な編集対象を忠実に処理しながら,時間的にスムーズな編集映像を生成することができる。
参考スコア（独自算出の注目度）: 18.89936405508778
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in diffusion models have significantly facilitated text-guided video editing. However, there is a relative scarcity of research on image-guided video editing, a method that empowers users to edit videos by merely indicating a target object in the initial frame and providing an RGB image as reference, without relying on the text prompts. In this paper, we propose a novel Image-guided Video Editing Diffusion model, termed IVEDiff for the image-guided video editing. IVEDiff is built on top of image editing models, and is equipped with learnable motion modules to maintain the temporal consistency of edited video. Inspired by self-supervised learning concepts, we introduce a masked motion modeling fine-tuning strategy that empowers the motion module's capabilities for capturing inter-frame motion dynamics, while preserving the capabilities for intra-frame semantic correlations modeling of the base image editing model. Moreover, an optical-flow-guided motion reference network is proposed to ensure the accurate propagation of information between edited video frames, alleviating the misleading effects of invalid information. We also construct a benchmark to facilitate further research. The comprehensive experiments demonstrate that our method is able to generate temporally smooth edited videos while robustly dealing with various editing objects with high quality.
Abstract（参考訳）: 拡散モデルの最近の進歩は、テキスト誘導ビデオ編集を著しく促進している。しかし、画像誘導ビデオ編集の研究は比較的少ないため、ユーザーはテキストのプロンプトに頼ることなく、初期フレーム内の対象物を単に表示し、参照としてRGB画像を提供することで、ビデオを編集できる。本稿では、画像誘導ビデオ編集のための新しい画像誘導ビデオ編集拡散モデルIVEDiffを提案する。 IVEDiffは画像編集モデル上に構築されており、ビデオ編集の時間的一貫性を維持するための学習可能なモーションモジュールを備えている。自己教師あり学習の概念に着想を得て,基本画像編集モデルのフレーム内セマンティック・コリレーション・モデリングの能力を保ちながら,フレーム間運動ダイナミクスを捕捉する動きモジュールの能力を向上するマスク付きモーションモデリング微調整戦略を導入する。さらに,編集された映像フレーム間の情報の正確な伝搬を確保するために,光フロー誘導型モーションレファレンスネットワークを提案する。さらなる研究を促進するためのベンチマークも構築する。総合的な実験により,高品質な編集オブジェクトを頑健に処理しながら,時間的にスムーズな編集ビデオを生成できることが実証された。

関連論文リスト

MotionEdit: Benchmarking and Learning Motion-Centric Image Editing [81.28392925790568]
動き中心の画像編集のための新しいデータセットであるMotionEditを紹介する。 MotionEditは、連続ビデオから抽出されたリアルな動き変換を描写した高忠実な画像ペアを提供する。本研究では,入力画像とモデル編集画像間の動きの流れが地中動とどのように一致しているかに基づいて,動きアライメントの報酬を計算するためにMotionNFTを提案する。
論文参考訳（メタデータ） (2025-12-11T04:53:58Z)
MotionV2V: Editing Motion in a Video [53.791975554391534]
入力から抽出したスパーストラジェクトリを編集し,映像の動きを変化させることを提案する。入力と出力の軌跡のずれを「運動編集」と呼ぶ。私たちのアプローチでは、任意のタイムスタンプから始まり、自然に伝播する編集が可能になります。
論文参考訳（メタデータ） (2025-11-25T18:57:25Z)
LoRA-Edit: Controllable First-Frame-Guided Video Editing via Mask-Aware LoRA Fine-Tuning [8.077442711429317]
拡散モデルを用いたビデオ編集は、ビデオの高品質な編集を作成できる顕著な成果を上げている。ファーストフレーム誘導編集は、最初のフレームを制御できるが、その後のフレームよりも柔軟性に欠ける。フレキシブルなビデオ編集のための事前訓練された画像対ビデオ(I2V)モデルに適応するマスクベースのLoRAチューニング手法を提案する。
論文参考訳（メタデータ） (2025-06-11T18:03:55Z)
DIVE: Taming DINO for Subject-Driven Video Editing [49.090071984272576]
DINO-Guided Video Editing (DIVE) は、ソースビデオの主題駆動編集を容易にするために設計されたフレームワークである。 DIVEは、ソースビデオの運動軌跡に合わせるためにDINO機能を使用している。正確な主題編集のために、DIVEは参照画像のDINO特徴を事前訓練されたテキスト・ツー・イメージモデルに組み込む。
論文参考訳（メタデータ） (2024-12-04T14:28:43Z)
Temporally Consistent Object Editing in Videos using Extended Attention [9.605596668263173]
本稿では,事前学習した画像拡散モデルを用いて映像を編集する手法を提案する。編集された情報がすべてのビデオフレームで一貫していることを保証する。
論文参考訳（メタデータ） (2024-06-01T02:31:16Z)
MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion [94.66090422753126]
MotionFollowerは、ビデオモーション編集のための軽量なスコア誘導拡散モデルである。優れたモーション編集性能を提供し、大きなカメラの動きとアクションのみをサポートする。最新のモーション編集モデルであるMotionEditorと比較して、MotionFollowerはGPUメモリの約80%の削減を実現している。
論文参考訳（メタデータ） (2024-05-30T17:57:30Z)
GenVideo: One-shot Target-image and Shape Aware Video Editing using T2I Diffusion Models [2.362412515574206]
ターゲット画像認識型T2Iモデルを利用した動画編集のためのGenVideoを提案する。提案手法は,編集の時間的一貫性を維持しつつ,形状や大きさの異なる対象オブジェクトで編集を処理する。
論文参考訳（メタデータ） (2024-04-18T23:25:27Z)
MotionEditor: Editing Video Motion via Content-Aware Diffusion [96.825431998349]
MotionEditorはビデオモーション編集のための拡散モデルである。新たなコンテンツ対応モーションアダプタをControlNetに組み込んで、時間的モーション対応をキャプチャする。
論文参考訳（メタデータ） (2023-11-30T18:59:33Z)
Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文参考訳（メタデータ） (2023-10-02T11:28:37Z)
MagicProp: Diffusion-based Video Editing via Motion-aware Appearance Propagation [74.32046206403177]
MagicPropは、ビデオ編集プロセスを、外観編集とモーション対応の外観伝搬という2つのステージに分割する。第一段階では、MagicPropは入力ビデオから単一のフレームを選択し、フレームの内容やスタイルを変更するために画像編集技術を適用する。第2段階では、MagicPropは編集されたフレームを外観参照として使用し、自動回帰レンダリングアプローチを使用して残りのフレームを生成する。
論文参考訳（メタデータ） (2023-09-02T11:13:29Z)
Edit-A-Video: Single Video Editing with Object-Aware Consistency [49.43316939996227]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文参考訳（メタデータ） (2023-03-14T14:35:59Z)
Dreamix: Video Diffusion Models are General Video Editors [22.127604561922897]
テキスト駆動画像とビデオ拡散モデルは最近、前例のない世代のリアリズムを達成した。一般的なビデオのテキストベースの動きと外観編集を行うことができる最初の拡散ベース手法を提案する。
論文参考訳（メタデータ） (2023-02-02T18:58:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。