論文の概要: Continuous-Time Video Generation via Learning Motion Dynamics with
Neural ODE
- arxiv url: http://arxiv.org/abs/2112.10960v1
- Date: Tue, 21 Dec 2021 03:30:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-23 00:08:29.454285
- Title: Continuous-Time Video Generation via Learning Motion Dynamics with
Neural ODE
- Title(参考訳): ニューラルodeを用いた学習運動ダイナミクスによる連続時間映像生成
- Authors: Kangyeol Kim, Sunghyun Park, Junsoo Lee, Joonseok Lee, Sookyung Kim,
Jaegul Choo, Edward Choi
- Abstract要約: 動きと外観の異なる分布を学習する新しい映像生成手法を提案する。
本稿では,第1段階が任意のフレームレートで雑音ベクトルをキーポイント列に変換し,第2段階が与えられたキーポイントシーケンスと外観雑音ベクトルに基づいて映像を合成する2段階の手法を用いる。
- 参考スコア(独自算出の注目度): 26.13198266911874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In order to perform unconditional video generation, we must learn the
distribution of the real-world videos. In an effort to synthesize high-quality
videos, various studies attempted to learn a mapping function between noise and
videos, including recent efforts to separate motion distribution and appearance
distribution. Previous methods, however, learn motion dynamics in discretized,
fixed-interval timesteps, which is contrary to the continuous nature of motion
of a physical body. In this paper, we propose a novel video generation approach
that learns separate distributions for motion and appearance, the former
modeled by neural ODE to learn natural motion dynamics. Specifically, we employ
a two-stage approach where the first stage converts a noise vector to a
sequence of keypoints in arbitrary frame rates, and the second stage
synthesizes videos based on the given keypoints sequence and the appearance
noise vector. Our model not only quantitatively outperforms recent baselines
for video generation, but also demonstrates versatile functionality such as
dynamic frame rate manipulation and motion transfer between two datasets, thus
opening new doors to diverse video generation applications.
- Abstract(参考訳): 非条件のビデオ生成を行うためには,実世界の映像の分布を学習する必要がある。
高品質な映像を合成するために、様々な研究がノイズと動画のマッピング機能を学習し、動きの分布と外観の分布を分離する最近の取り組みを含む。
しかし、以前の手法では、物体の運動の連続的な性質とは対照的に、離散した固定的な時間ステップで動きのダイナミクスを学ぶ。
本稿では,ニューラル・オードでモデル化された動きと外観の異なる分布を学習し,自然運動のダイナミクスを学習する新しい映像生成手法を提案する。
具体的には、第1段がノイズベクトルを任意のフレームレートのキーポイント列に変換し、第2段が与えられたキーポイントシーケンスと出現ノイズベクトルに基づいてビデオを合成する2段アプローチを採用する。
我々のモデルは,最近のビデオ生成のベースラインを定量的に上回っているだけでなく,動的フレームレート操作や2つのデータセット間のモーション転送といった汎用性も示している。
関連論文リスト
- Customizing Motion in Text-to-Video Diffusion Models [79.4121510826141]
動作をカスタマイズしたテキスト・ビデオ・ジェネレーション・モデルを構築するためのアプローチを提案する。
入力として特定の動きを示すビデオサンプルを活用することで,入力動作パターンを多種多様なテキスト特定シナリオに対して学習し,一般化する。
論文 参考訳(メタデータ) (2023-12-07T18:59:03Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - Generative Image Dynamics [86.58649051470478]
本研究では,シーン動作に先立って画像空間をモデル化する手法を提案する。
我々の先行研究は、実映像から抽出した動き軌跡の収集から得られたものである。
論文 参考訳(メタデータ) (2023-09-14T17:54:01Z) - MoStGAN-V: Video Generation with Temporal Motion Styles [28.082294960744726]
以前の作品は、自己回帰的な方法で、あるいは連続的な信号として時間に関して、任意の長さのビデオを生成しようと試みていた。
スタイルベースジェネレータの1つの時間に依存しない潜在ベクトルは、様々な時間的変動をモデル化するには不十分である。
多様な動きパターンをモデル化するために、時間依存の動作スタイルを導入する。
論文 参考訳(メタデータ) (2023-04-05T22:47:12Z) - Diverse Dance Synthesis via Keyframes with Transformer Controllers [10.23813069057791]
本稿では,複数の制約に基づく動きに基づく動き生成ネットワークを提案し,学習知識を用いて多様なダンス合成を実現する。
我々のネットワークのバックボーンは2つの長い短期記憶(LSTM)ユニットからなる階層的RNNモジュールであり、最初のLSTMを用いて歴史的フレームの姿勢情報を潜時空間に埋め込む。
本フレームワークは2つのTransformerベースのコントローラを備えており,それぞれがルート軌道と速度係数の制約をモデル化するために使用される。
論文 参考訳(メタデータ) (2022-07-13T00:56:46Z) - Dynamic View Synthesis from Dynamic Monocular Video [69.80425724448344]
動的シーンの単眼映像を与えられた任意の視点と任意の入力時間ステップでビューを生成するアルゴリズムを提案する。
カジュアルな映像からの動的ビュー合成の定量的および定性的な結果を示す。
論文 参考訳(メタデータ) (2021-05-13T17:59:50Z) - Dual-MTGAN: Stochastic and Deterministic Motion Transfer for
Image-to-Video Synthesis [38.41763708731513]
本稿では,映像データと映像データを入力として取り込むDual Motion Transfer GAN(Dual-MTGAN)を提案する。
我々のDual-MTGANは、決定論的モーショントランスファーとモーションジェネレーションを行うことができる。
提案モデルは、ポーズや顔のランドマークのような事前定義された動作特徴を利用することなく、エンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-02-26T06:54:48Z) - Vid-ODE: Continuous-Time Video Generation with Neural Ordinary
Differential Equation [42.85126020237214]
本稿では,ニューラルODE(Vid-ODE)と画素レベルの画像処理技術を組み合わせた連続時間ビデオ生成を提案する。
Vid-ODEは、現実世界のビデオを使った連続的なビデオ生成を成功させた最初の作品である。
論文 参考訳(メタデータ) (2020-10-16T06:50:47Z) - Hierarchical Style-based Networks for Motion Synthesis [150.226137503563]
本研究では,特定の目標地点を達成するために,長距離・多種多様・多様な行動を生成する自己指導手法を提案する。
提案手法は,長距離生成タスクを階層的に分解することで人間の動作をモデル化する。
大規模な骨格データから, 提案手法は長距離, 多様な, もっともらしい動きを合成できることを示す。
論文 参考訳(メタデータ) (2020-08-24T02:11:02Z) - Non-Adversarial Video Synthesis with Learned Priors [53.26777815740381]
我々は、参照入力フレームを使わずに、遅延雑音ベクトルからビデオを生成する問題に焦点をあてる。
本研究では,入力潜時空間,繰り返しニューラルネットワークの重み付け,非対角学習によるジェネレータを協調的に最適化する手法を開発した。
提案手法は,既存の最先端手法と比較して高品質なビデオを生成する。
論文 参考訳(メタデータ) (2020-03-21T02:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。