論文の概要: MoStGAN-V: Video Generation with Temporal Motion Styles
- arxiv url: http://arxiv.org/abs/2304.02777v1
- Date: Wed, 5 Apr 2023 22:47:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 15:51:16.398584
- Title: MoStGAN-V: Video Generation with Temporal Motion Styles
- Title(参考訳): MoStGAN-V:テンポラルモーションスタイルのビデオ生成
- Authors: Xiaoqian Shen, Xiang Li, Mohamed Elhoseiny
- Abstract要約: 以前の作品は、自己回帰的な方法で、あるいは連続的な信号として時間に関して、任意の長さのビデオを生成しようと試みていた。
スタイルベースジェネレータの1つの時間に依存しない潜在ベクトルは、様々な時間的変動をモデル化するには不十分である。
多様な動きパターンをモデル化するために、時間依存の動作スタイルを導入する。
- 参考スコア(独自算出の注目度): 28.082294960744726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video generation remains a challenging task due to spatiotemporal complexity
and the requirement of synthesizing diverse motions with temporal consistency.
Previous works attempt to generate videos in arbitrary lengths either in an
autoregressive manner or regarding time as a continuous signal. However, they
struggle to synthesize detailed and diverse motions with temporal coherence and
tend to generate repetitive scenes after a few time steps. In this work, we
argue that a single time-agnostic latent vector of style-based generator is
insufficient to model various and temporally-consistent motions. Hence, we
introduce additional time-dependent motion styles to model diverse motion
patterns. In addition, a Motion Style Attention modulation mechanism, dubbed as
MoStAtt, is proposed to augment frames with vivid dynamics for each specific
scale (i.e., layer), which assigns attention score for each motion style w.r.t
deconvolution filter weights in the target synthesis layer and softly attends
different motion styles for weight modulation. Experimental results show our
model achieves state-of-the-art performance on four unconditional $256^2$ video
synthesis benchmarks trained with only 3 frames per clip and produces better
qualitative results with respect to dynamic motions. Code and videos have been
made available at https://github.com/xiaoqian-shen/MoStGAN-V.
- Abstract(参考訳): 映像生成は時空間的複雑さと時間的一貫性を伴う多様な動きを合成する必要性から、依然として困難な課題である。
以前の作品では、任意の長さの動画を自己回帰的に、または連続的な信号として時間について生成しようと試みている。
しかし、彼らは時間的コヒーレンスで詳細で多様な動きを合成するのに苦労し、数ステップ後に繰り返しシーンを生成する傾向がある。
本研究では,スタイルベース発電機の1つの時間非依存な潜在ベクトルが,多様かつ時間的一貫性のある動きをモデル化するには不十分であると主張する。
そこで我々は,多様な動きパターンをモデル化するために,時間依存の動作スタイルを導入する。
また,モーストラットと呼ばれるモーションスタイル注意変調機構が提案されており,各モーションスタイルに対する注意スコアを目標合成層内のw.r.tデコンボリューションフィルタ重みに割り当て,ウェイト変調のための異なるモーションスタイルにソフトで順応する,特定のスケール(すなわち層)ごとに自明なダイナミクスを持つフレームを補強する。
実験結果から,256^2$ビデオ合成ベンチマークを1クリップあたり3フレームでトレーニングし,動的動きに対する質的な結果が得られた。
コードとビデオはhttps://github.com/xiaoqian-shen/MoStGAN-Vで公開されている。
関連論文リスト
- Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models [59.10171699717122]
MoTransは、新しいコンテキストにおける類似した動きのビデオ生成を可能にする、カスタマイズされたモーション転送方式である。
再カプセル化されたプロンプトとビデオフレームからのマルチモーダル表現は、外観のモデリングを促進する。
本手法は, 特定の動きパターンを, 単一の参照ビデオや複数参照ビデオから効果的に学習する。
論文 参考訳(メタデータ) (2024-12-02T10:07:59Z) - MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - VideoComposer: Compositional Video Synthesis with Motion Controllability [52.4714732331632]
VideoComposerを使えば、ユーザーはテキストの条件や空間的条件、さらに重要な時間的条件でビデオを柔軟に組み立てることができる。
圧縮ビデオからの運動ベクトルを明示的な制御信号として導入し、時間的ダイナミクスに関するガイダンスを提供する。
さらに、逐次入力の空間的・時間的関係を効果的に組み込むために、統一インターフェースとして機能する時空間条件エンコーダ(STC-エンコーダ)を開発した。
論文 参考訳(メタデータ) (2023-06-03T06:29:02Z) - Continuous-Time Video Generation via Learning Motion Dynamics with
Neural ODE [26.13198266911874]
動きと外観の異なる分布を学習する新しい映像生成手法を提案する。
本稿では,第1段階が任意のフレームレートで雑音ベクトルをキーポイント列に変換し,第2段階が与えられたキーポイントシーケンスと外観雑音ベクトルに基づいて映像を合成する2段階の手法を用いる。
論文 参考訳(メタデータ) (2021-12-21T03:30:38Z) - Dance In the Wild: Monocular Human Animation with Neural Dynamic
Appearance Synthesis [56.550999933048075]
そこで本研究では,課題に対処し,高品質な映像合成手法を提案する。
動的外見変化を捉えるために発電機重量を変調するために用いられる新しい動きシグネチャを導入する。
提案手法を課題ビデオの集合上で評価し,その手法が質的かつ定量的に最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2021-11-10T20:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。