論文の概要: MotionEditor: Editing Video Motion via Content-Aware Diffusion
- arxiv url: http://arxiv.org/abs/2311.18830v1
- Date: Thu, 30 Nov 2023 18:59:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 14:59:40.593070
- Title: MotionEditor: Editing Video Motion via Content-Aware Diffusion
- Title(参考訳): MotionEditor:コンテンツ認識拡散による動画の編集
- Authors: Shuyuan Tu, Qi Dai, Zhi-Qi Cheng, Han Hu, Xintong Han, Zuxuan Wu,
Yu-Gang Jiang
- Abstract要約: MotionEditorはビデオモーション編集のための拡散モデルである。
新たなコンテンツ対応モーションアダプタをControlNetに組み込んで、時間的モーション対応をキャプチャする。
- 参考スコア(独自算出の注目度): 96.825431998349
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing diffusion-based video editing models have made gorgeous advances for
editing attributes of a source video over time but struggle to manipulate the
motion information while preserving the original protagonist's appearance and
background. To address this, we propose MotionEditor, a diffusion model for
video motion editing. MotionEditor incorporates a novel content-aware motion
adapter into ControlNet to capture temporal motion correspondence. While
ControlNet enables direct generation based on skeleton poses, it encounters
challenges when modifying the source motion in the inverted noise due to
contradictory signals between the noise (source) and the condition (reference).
Our adapter complements ControlNet by involving source content to transfer
adapted control signals seamlessly. Further, we build up a two-branch
architecture (a reconstruction branch and an editing branch) with a
high-fidelity attention injection mechanism facilitating branch interaction.
This mechanism enables the editing branch to query the key and value from the
reconstruction branch in a decoupled manner, making the editing branch retain
the original background and protagonist appearance. We also propose a skeleton
alignment algorithm to address the discrepancies in pose size and position.
Experiments demonstrate the promising motion editing ability of MotionEditor,
both qualitatively and quantitatively.
- Abstract(参考訳): 既存の拡散型ビデオ編集モデルでは、ソースビデオの属性を時間をかけて編集する際、元の主人公の外観や背景を保ちながら、動作情報を操作するのに苦労している。
そこで本稿では,ビデオ動画編集のための拡散モデルであるmotioneditorを提案する。
MotionEditorは、新しいコンテンツ対応モーションアダプタをControlNetに組み込んで、時間的モーション対応をキャプチャする。
controlnetはスケルトンポーズに基づく直接生成を可能にするが、ノイズ(ソース)と条件(参照)との相反する信号による逆ノイズの音源運動を変更する際の課題に遭遇する。
本アダプタは、制御信号をシームレスに転送するために、ソースコンテンツを含む制御ネットを補完する。
さらに,2分岐アーキテクチャ(再構築ブランチと編集ブランチ)を構築し,枝の相互作用を容易にする高忠実度注意注入機構を構築した。
この機構により、編集ブランチが復元ブランチからキーと値を分離してクエリし、編集ブランチが元の背景と主人公の外観を維持することができる。
また,ポーズサイズと位置の差異に対処するためのスケルトンアライメントアルゴリズムを提案する。
実験では,MotionEditorの有望な動作編集能力を質的かつ定量的に示す。
関連論文リスト
- HOI-Swap: Swapping Objects in Videos with Hand-Object Interaction Awareness [57.18183962641015]
本稿では,自己指導型ビデオ編集フレームワークHOI-Swapについて紹介する。
第1ステージでは、HOI認識を備えた単一フレームでのオブジェクトスワップに焦点を当てている。
第2ステージは、シーケンス全体にわたって単一フレームの編集を拡張する。
論文 参考訳(メタデータ) (2024-06-11T22:31:29Z) - Temporally Consistent Object Editing in Videos using Extended Attention [9.605596668263173]
本稿では,事前学習した画像拡散モデルを用いて映像を編集する手法を提案する。
編集された情報がすべてのビデオフレームで一貫していることを保証する。
論文 参考訳(メタデータ) (2024-06-01T02:31:16Z) - MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion [94.66090422753126]
MotionFollowerは、ビデオモーション編集のための軽量なスコア誘導拡散モデルである。
優れたモーション編集性能を提供し、大きなカメラの動きとアクションのみをサポートする。
最新のモーション編集モデルであるMotionEditorと比較して、MotionFollowerはGPUメモリの約80%の削減を実現している。
論文 参考訳(メタデータ) (2024-05-30T17:57:30Z) - ReVideo: Remake a Video with Motion and Content Control [67.5923127902463]
本稿では,コンテンツと動画の両方の仕様により,特定の領域における正確な映像編集を可能にするビデオリメイク(VideoRe)を提案する。
VideoReは、コンテンツとモーションコントロールの結合とトレーニングの不均衡を含む新しいタスクに対処する。
また,本手法は,特定のトレーニングを変更することなく,その柔軟性と堅牢性を示すことなく,これらのアプリケーションをマルチエリア編集にシームレスに拡張することができる。
論文 参考訳(メタデータ) (2024-05-22T17:46:08Z) - UniEdit: A Unified Tuning-Free Framework for Video Motion and Appearance Editing [28.140945021777878]
ビデオモーションと外観編集の両方をサポートする、チューニング不要のフレームワークであるUniEditを提示する。
映像コンテンツを保存しながら動きの編集を実現するため,補助的な動き参照と再構成のブランチを導入する。
得られた特徴は、時間的および空間的自己注意層を介して、主編集経路に注入される。
論文 参考訳(メタデータ) (2024-02-20T17:52:12Z) - MagicStick: Controllable Video Editing via Control Handle
Transformations [109.26314726025097]
MagicStickは、抽出した内部制御信号の変換を利用してビデオプロパティを編集する、制御可能なビデオ編集方法である。
統合フレームワークにおける多数の実例について実験を行った。
また、形状対応テキストベースの編集や手作り動画生成と比較し、従来の作品よりも優れた時間的一貫性と編集能力を示した。
論文 参考訳(メタデータ) (2023-12-05T17:58:06Z) - MagicProp: Diffusion-based Video Editing via Motion-aware Appearance
Propagation [74.32046206403177]
MagicPropは、ビデオ編集プロセスを、外観編集とモーション対応の外観伝搬という2つのステージに分割する。
第一段階では、MagicPropは入力ビデオから単一のフレームを選択し、フレームの内容やスタイルを変更するために画像編集技術を適用する。
第2段階では、MagicPropは編集されたフレームを外観参照として使用し、自動回帰レンダリングアプローチを使用して残りのフレームを生成する。
論文 参考訳(メタデータ) (2023-09-02T11:13:29Z) - InFusion: Inject and Attention Fusion for Multi Concept Zero-Shot
Text-based Video Editing [27.661609140918916]
InFusionはゼロショットテキストベースのビデオ編集のためのフレームワークである。
編集プロンプトで言及されているさまざまな概念に対する画素レベルの制御による複数の概念の編集をサポートする。
私たちのフレームワークは、トレーニングを必要としないため、編集のためのワンショットチューニングモデルの安価な代替品です。
論文 参考訳(メタデータ) (2023-07-22T17:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。