論文の概要: ReVideo: Remake a Video with Motion and Content Control
- arxiv url: http://arxiv.org/abs/2405.13865v1
- Date: Wed, 22 May 2024 17:46:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 20:53:06.799139
- Title: ReVideo: Remake a Video with Motion and Content Control
- Title(参考訳): ReVideo:モーションコントロールとコンテンツコントロールで動画をリメイク
- Authors: Chong Mou, Mingdeng Cao, Xintao Wang, Zhaoyang Zhang, Ying Shan, Jian Zhang,
- Abstract要約: 本稿では,コンテンツと動画の両方の仕様により,特定の領域における正確な映像編集を可能にするビデオリメイク(VideoRe)を提案する。
VideoReは、コンテンツとモーションコントロールの結合とトレーニングの不均衡を含む新しいタスクに対処する。
また,本手法は,特定のトレーニングを変更することなく,その柔軟性と堅牢性を示すことなく,これらのアプリケーションをマルチエリア編集にシームレスに拡張することができる。
- 参考スコア(独自算出の注目度): 67.5923127902463
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite significant advancements in video generation and editing using diffusion models, achieving accurate and localized video editing remains a substantial challenge. Additionally, most existing video editing methods primarily focus on altering visual content, with limited research dedicated to motion editing. In this paper, we present a novel attempt to Remake a Video (ReVideo) which stands out from existing methods by allowing precise video editing in specific areas through the specification of both content and motion. Content editing is facilitated by modifying the first frame, while the trajectory-based motion control offers an intuitive user interaction experience. ReVideo addresses a new task involving the coupling and training imbalance between content and motion control. To tackle this, we develop a three-stage training strategy that progressively decouples these two aspects from coarse to fine. Furthermore, we propose a spatiotemporal adaptive fusion module to integrate content and motion control across various sampling steps and spatial locations. Extensive experiments demonstrate that our ReVideo has promising performance on several accurate video editing applications, i.e., (1) locally changing video content while keeping the motion constant, (2) keeping content unchanged and customizing new motion trajectories, (3) modifying both content and motion trajectories. Our method can also seamlessly extend these applications to multi-area editing without specific training, demonstrating its flexibility and robustness.
- Abstract(参考訳): 拡散モデルを用いた映像生成と編集の大幅な進歩にもかかわらず、正確で局所的な映像編集を実現することは大きな課題である。
さらに、既存のビデオ編集手法のほとんどは、モーション編集に特化した限定的な研究によって、主に視覚コンテンツの変更に焦点を当てている。
本稿では、コンテンツと動画の両方の仕様により、特定の領域における正確な映像編集を可能にすることによって、既存の手法と区別されるビデオのリメイク(ReVideo)を新たに試みる。
コンテンツ編集は、第1フレームを変更することで容易になり、トラジェクトリベースのモーションコントロールは、直感的なユーザインタラクションエクスペリエンスを提供する。
ReVideoは、コンテンツとモーションコントロールの結合とトレーニングの不均衡を含む、新しいタスクに対処する。
そこで我々は,この2つの側面を粗いものから細かいものへと段階的に分離する3段階のトレーニング戦略を開発した。
さらに,様々なサンプリングステップと空間的位置をまたいだコンテンツと動作制御を統合するための時空間適応型融合モジュールを提案する。
広範にわたる実験により,我々のReVideoは,(1)動きを一定に保ちながら映像コンテンツを局所的に変化させること,(2)コンテンツが変化せず,新たな動きの軌跡をカスタマイズすること,(3)コンテンツと動きの軌跡を改変すること,といった,いくつかの正確なビデオ編集アプリケーションにおいて有望な性能を示した。
また,その柔軟性と堅牢性を示しながら,特定のトレーニングをすることなく,これらのアプリケーションをマルチエリア編集にシームレスに拡張することが可能である。
関連論文リスト
- StableV2V: Stablizing Shape Consistency in Video-to-Video Editing [11.09708780767668]
本稿では,形状に一貫性のあるビデオ編集手法であるStableV2Vについて述べる。
提案手法は,編集パイプライン全体を複数のシーケンシャルな手順に分解し,最初のビデオフレームを編集し,配信された動作とユーザプロンプトのアライメントを確立し,最終的にそのアライメントに基づいて編集内容を他のすべてのフレームに伝達する。
実験結果と解析結果から,既存の最先端研究と比較して,提案手法の性能,視覚的整合性,推論効率が向上していることが示唆された。
論文 参考訳(メタデータ) (2024-11-17T11:48:01Z) - Zero-Shot Video Editing through Adaptive Sliding Score Distillation [51.57440923362033]
本研究は,オリジナルビデオコンテンツの直接操作を容易にする,ビデオベースのスコア蒸留の新たなパラダイムを提案する。
本稿では,グローバルとローカルの両方の動画ガイダンスを取り入れた適応スライディングスコア蒸留方式を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:33:59Z) - MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion [94.66090422753126]
MotionFollowerは、ビデオモーション編集のための軽量なスコア誘導拡散モデルである。
優れたモーション編集性能を提供し、大きなカメラの動きとアクションのみをサポートする。
最新のモーション編集モデルであるMotionEditorと比較して、MotionFollowerはGPUメモリの約80%の削減を実現している。
論文 参考訳(メタデータ) (2024-05-30T17:57:30Z) - I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。
I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文 参考訳(メタデータ) (2024-05-26T11:47:40Z) - Action Reimagined: Text-to-Pose Video Editing for Dynamic Human Actions [49.14827857853878]
ReimaginedActはビデオ理解、推論、編集モジュールを含む。
提案手法は, 直接指示文のプロンプトだけでなく, 行動変化を予測するための質問も受けられる。
論文 参考訳(メタデータ) (2024-03-11T22:46:46Z) - SAVE: Protagonist Diversification with Structure Agnostic Video Editing [29.693364686494274]
従来の作品は通常、自明で一貫した形状でうまく機能し、元のものと大きく異なる体形を持つ難しいターゲットで容易に崩壊する。
動きのパーソナライズを単一音源映像から分離し,それに応じて動きの調整を行う。
我々はまた、新しい擬似光学フローを導入することにより、動き語を適切な動き関連領域に適応するように調整する。
論文 参考訳(メタデータ) (2023-12-05T05:13:20Z) - MotionEditor: Editing Video Motion via Content-Aware Diffusion [96.825431998349]
MotionEditorはビデオモーション編集のための拡散モデルである。
新たなコンテンツ対応モーションアダプタをControlNetに組み込んで、時間的モーション対応をキャプチャする。
論文 参考訳(メタデータ) (2023-11-30T18:59:33Z) - Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image
Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。
トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。
実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-02T11:28:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。