Fugu-MT 論文翻訳(概要): MotionEditor: Editing Video Motion via Content-Aware Diffusion

論文の概要: MotionEditor: Editing Video Motion via Content-Aware Diffusion

arxiv url: http://arxiv.org/abs/2311.18830v1
Date: Thu, 30 Nov 2023 18:59:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-01 14:59:40.593070
Title: MotionEditor: Editing Video Motion via Content-Aware Diffusion
Title（参考訳）: MotionEditor:コンテンツ認識拡散による動画の編集
Authors: Shuyuan Tu, Qi Dai, Zhi-Qi Cheng, Han Hu, Xintong Han, Zuxuan Wu, Yu-Gang Jiang
Abstract要約: MotionEditorはビデオモーション編集のための拡散モデルである。新たなコンテンツ対応モーションアダプタをControlNetに組み込んで、時間的モーション対応をキャプチャする。
参考スコア（独自算出の注目度）: 96.825431998349
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing diffusion-based video editing models have made gorgeous advances for editing attributes of a source video over time but struggle to manipulate the motion information while preserving the original protagonist's appearance and background. To address this, we propose MotionEditor, a diffusion model for video motion editing. MotionEditor incorporates a novel content-aware motion adapter into ControlNet to capture temporal motion correspondence. While ControlNet enables direct generation based on skeleton poses, it encounters challenges when modifying the source motion in the inverted noise due to contradictory signals between the noise (source) and the condition (reference). Our adapter complements ControlNet by involving source content to transfer adapted control signals seamlessly. Further, we build up a two-branch architecture (a reconstruction branch and an editing branch) with a high-fidelity attention injection mechanism facilitating branch interaction. This mechanism enables the editing branch to query the key and value from the reconstruction branch in a decoupled manner, making the editing branch retain the original background and protagonist appearance. We also propose a skeleton alignment algorithm to address the discrepancies in pose size and position. Experiments demonstrate the promising motion editing ability of MotionEditor, both qualitatively and quantitatively.
Abstract（参考訳）: 既存の拡散型ビデオ編集モデルでは、ソースビデオの属性を時間をかけて編集する際、元の主人公の外観や背景を保ちながら、動作情報を操作するのに苦労している。そこで本稿では,ビデオ動画編集のための拡散モデルであるmotioneditorを提案する。 MotionEditorは、新しいコンテンツ対応モーションアダプタをControlNetに組み込んで、時間的モーション対応をキャプチャする。 controlnetはスケルトンポーズに基づく直接生成を可能にするが、ノイズ(ソース)と条件(参照)との相反する信号による逆ノイズの音源運動を変更する際の課題に遭遇する。本アダプタは、制御信号をシームレスに転送するために、ソースコンテンツを含む制御ネットを補完する。さらに,2分岐アーキテクチャ(再構築ブランチと編集ブランチ)を構築し,枝の相互作用を容易にする高忠実度注意注入機構を構築した。この機構により、編集ブランチが復元ブランチからキーと値を分離してクエリし、編集ブランチが元の背景と主人公の外観を維持することができる。また,ポーズサイズと位置の差異に対処するためのスケルトンアライメントアルゴリズムを提案する。実験では,MotionEditorの有望な動作編集能力を質的かつ定量的に示す。

関連論文リスト

LoRA-Edit: Controllable First-Frame-Guided Video Editing via Mask-Aware LoRA Fine-Tuning [8.077442711429317]
拡散モデルを用いたビデオ編集は、ビデオの高品質な編集を作成できる顕著な成果を上げている。ファーストフレーム誘導編集は、最初のフレームを制御できるが、その後のフレームよりも柔軟性に欠ける。フレキシブルなビデオ編集のための事前訓練された画像対ビデオ(I2V)モデルに適応するマスクベースのLoRAチューニング手法を提案する。
論文参考訳（メタデータ） (2025-06-11T18:03:55Z)
SketchVideo: Sketch-based Video Generation and Editing [51.99066098393491]
本研究では,映像生成のためのスケッチベースの空間・動き制御の実現と,実・合成ビデオのきめ細かい編集を支援することを目的とする。 DiTビデオ生成モデルに基づいて、スキップされたDiTブロックの残像を予測するスケッチ制御ブロックを用いたメモリ効率の高い制御構造を提案する。スケッチベースのビデオ編集では,新たに編集したコンテンツとオリジナルビデオの空間的特徴と動的動作との整合性を維持するビデオ挿入モジュールを設計する。
論文参考訳（メタデータ） (2025-03-30T02:44:09Z)
Edit as You See: Image-guided Video Editing via Masked Motion Modeling [18.89936405508778]
画像誘導映像編集拡散モデル(IVEDiff)を提案する。 IVEDiffは画像編集モデル上に構築されており、ビデオ編集の時間的一貫性を維持するための学習可能なモーションモジュールを備えている。本手法は,高画質な編集対象を忠実に処理しながら,時間的にスムーズな編集映像を生成することができる。
論文参考訳（メタデータ） (2025-01-08T07:52:12Z)
HOI-Swap: Swapping Objects in Videos with Hand-Object Interaction Awareness [57.18183962641015]
本稿では,自己指導型ビデオ編集フレームワークHOI-Swapについて紹介する。第1ステージでは、HOI認識を備えた単一フレームでのオブジェクトスワップに焦点を当てている。第2ステージは、シーケンス全体にわたって単一フレームの編集を拡張する。
論文参考訳（メタデータ） (2024-06-11T22:31:29Z)
Temporally Consistent Object Editing in Videos using Extended Attention [9.605596668263173]
本稿では,事前学習した画像拡散モデルを用いて映像を編集する手法を提案する。編集された情報がすべてのビデオフレームで一貫していることを保証する。
論文参考訳（メタデータ） (2024-06-01T02:31:16Z)
MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion [94.66090422753126]
MotionFollowerは、ビデオモーション編集のための軽量なスコア誘導拡散モデルである。優れたモーション編集性能を提供し、大きなカメラの動きとアクションのみをサポートする。最新のモーション編集モデルであるMotionEditorと比較して、MotionFollowerはGPUメモリの約80%の削減を実現している。
論文参考訳（メタデータ） (2024-05-30T17:57:30Z)
ReVideo: Remake a Video with Motion and Content Control [67.5923127902463]
本稿では,コンテンツと動画の両方の仕様により,特定の領域における正確な映像編集を可能にするビデオリメイク(VideoRe)を提案する。 VideoReは、コンテンツとモーションコントロールの結合とトレーニングの不均衡を含む新しいタスクに対処する。また,本手法は,特定のトレーニングを変更することなく,その柔軟性と堅牢性を示すことなく,これらのアプリケーションをマルチエリア編集にシームレスに拡張することができる。
論文参考訳（メタデータ） (2024-05-22T17:46:08Z)
UniEdit: A Unified Tuning-Free Framework for Video Motion and Appearance Editing [28.140945021777878]
ビデオモーションと外観編集の両方をサポートする、チューニング不要のフレームワークであるUniEditを提示する。映像コンテンツを保存しながら動きの編集を実現するため,補助的な動き参照と再構成のブランチを導入する。得られた特徴は、時間的および空間的自己注意層を介して、主編集経路に注入される。
論文参考訳（メタデータ） (2024-02-20T17:52:12Z)
MagicStick: Controllable Video Editing via Control Handle Transformations [49.29608051543133]
MagicStickは、抽出した内部制御信号の変換を利用してビデオプロパティを編集する、制御可能なビデオ編集方法である。統合フレームワークにおける多数の実例について実験を行った。また、形状対応テキストベースの編集や手作り動画生成と比較し、従来の作品よりも優れた時間的一貫性と編集能力を示した。
論文参考訳（メタデータ） (2023-12-05T17:58:06Z)
MagicProp: Diffusion-based Video Editing via Motion-aware Appearance Propagation [74.32046206403177]
MagicPropは、ビデオ編集プロセスを、外観編集とモーション対応の外観伝搬という2つのステージに分割する。第一段階では、MagicPropは入力ビデオから単一のフレームを選択し、フレームの内容やスタイルを変更するために画像編集技術を適用する。第2段階では、MagicPropは編集されたフレームを外観参照として使用し、自動回帰レンダリングアプローチを使用して残りのフレームを生成する。
論文参考訳（メタデータ） (2023-09-02T11:13:29Z)
InFusion: Inject and Attention Fusion for Multi Concept Zero-Shot Text-based Video Editing [27.661609140918916]
InFusionはゼロショットテキストベースのビデオ編集のためのフレームワークである。編集プロンプトで言及されているさまざまな概念に対する画素レベルの制御による複数の概念の編集をサポートする。私たちのフレームワークは、トレーニングを必要としないため、編集のためのワンショットチューニングモデルの安価な代替品です。
論文参考訳（メタデータ） (2023-07-22T17:05:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。