Fugu-MT 論文翻訳(概要): Continuous-Time Video Generation via Learning Motion Dynamics with Neural ODE

論文の概要: Continuous-Time Video Generation via Learning Motion Dynamics with Neural ODE

arxiv url: http://arxiv.org/abs/2112.10960v1
Date: Tue, 21 Dec 2021 03:30:38 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-23 00:08:29.454285
Title: Continuous-Time Video Generation via Learning Motion Dynamics with Neural ODE
Title（参考訳）: ニューラルodeを用いた学習運動ダイナミクスによる連続時間映像生成
Authors: Kangyeol Kim, Sunghyun Park, Junsoo Lee, Joonseok Lee, Sookyung Kim, Jaegul Choo, Edward Choi
Abstract要約: 動きと外観の異なる分布を学習する新しい映像生成手法を提案する。本稿では,第1段階が任意のフレームレートで雑音ベクトルをキーポイント列に変換し,第2段階が与えられたキーポイントシーケンスと外観雑音ベクトルに基づいて映像を合成する2段階の手法を用いる。
参考スコア（独自算出の注目度）: 26.13198266911874
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In order to perform unconditional video generation, we must learn the distribution of the real-world videos. In an effort to synthesize high-quality videos, various studies attempted to learn a mapping function between noise and videos, including recent efforts to separate motion distribution and appearance distribution. Previous methods, however, learn motion dynamics in discretized, fixed-interval timesteps, which is contrary to the continuous nature of motion of a physical body. In this paper, we propose a novel video generation approach that learns separate distributions for motion and appearance, the former modeled by neural ODE to learn natural motion dynamics. Specifically, we employ a two-stage approach where the first stage converts a noise vector to a sequence of keypoints in arbitrary frame rates, and the second stage synthesizes videos based on the given keypoints sequence and the appearance noise vector. Our model not only quantitatively outperforms recent baselines for video generation, but also demonstrates versatile functionality such as dynamic frame rate manipulation and motion transfer between two datasets, thus opening new doors to diverse video generation applications.
Abstract（参考訳）: 非条件のビデオ生成を行うためには,実世界の映像の分布を学習する必要がある。高品質な映像を合成するために、様々な研究がノイズと動画のマッピング機能を学習し、動きの分布と外観の分布を分離する最近の取り組みを含む。しかし、以前の手法では、物体の運動の連続的な性質とは対照的に、離散した固定的な時間ステップで動きのダイナミクスを学ぶ。本稿では,ニューラル・オードでモデル化された動きと外観の異なる分布を学習し,自然運動のダイナミクスを学習する新しい映像生成手法を提案する。具体的には、第1段がノイズベクトルを任意のフレームレートのキーポイント列に変換し、第2段が与えられたキーポイントシーケンスと出現ノイズベクトルに基づいてビデオを合成する2段アプローチを採用する。我々のモデルは,最近のビデオ生成のベースラインを定量的に上回っているだけでなく,動的フレームレート操作や2つのデータセット間のモーション転送といった汎用性も示している。

関連論文リスト

SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation [56.90807453045657]
SynMotion(シンモクション)は、セマンティックガイダンスと視覚適応を併用した動画生成モデルである。意味レベルでは、主観と動きの表現をアンタングルする二項意味理解機構を導入する。視覚レベルでは、効率的なモーションアダプタをトレーニング済みのビデオ生成モデルに統合し、動きの忠実度と時間的コヒーレンスを高める。
論文参考訳（メタデータ） (2025-06-30T10:09:32Z)
Motion aware video generative model [12.5036873986483]
拡散に基づくビデオ生成は、視覚内容とセマンティックコヒーレンスに前例のない品質をもたらす。現在のアプローチは、基礎となる運動物理学を明示的にモデル化することなく、統計的学習に依存している。本稿では、物理インフォームド周波数領域を用いて、生成したビデオの物理的妥当性を高める手法を提案する。
論文参考訳（メタデータ） (2025-06-02T20:42:54Z)
EasyGenNet: An Efficient Framework for Audio-Driven Gesture Video Generation Based on Diffusion Model [22.286624353800377]
本研究では,2次元人間の骨格を中間動作表現として用い,音声合成のための新しいパイプラインを提案する。実験の結果,本手法は既存のGAN法および拡散法よりも優れていることがわかった。
論文参考訳（メタデータ） (2025-04-11T08:19:18Z)
VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [71.9811050853964]
VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。 VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文参考訳（メタデータ） (2025-02-04T17:07:10Z)
Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency [15.841490425454344]
本稿では,Loopy という,エンドツーエンドの音声のみの条件付きビデオ拡散モデルを提案する。具体的には,ループ内時間モジュールとオーディオ・トゥ・ラテントモジュールを設計し,長期動作情報を活用する。
論文参考訳（メタデータ） (2024-09-04T11:55:14Z)
Unfolding Videos Dynamics via Taylor Expansion [5.723852805622308]
ビデオの自己教師型動的学習戦略について紹介する: インスタンス識別のためのビデオ時間差分法(ViDiDi) ViDiDiは、フレームシーケンスの時間的デリバティブのさまざまな順序を通して、ビデオの異なる側面を観察する。 ViDiDiは、ビデオとその時間微分を一貫した埋め込みにエンコードする単一のニューラルネットワークを学習する。
論文参考訳（メタデータ） (2024-09-04T01:41:09Z)
Disentangling Foreground and Background Motion for Enhanced Realism in Human Video Generation [15.569467643817447]
異なる動き表現を用いて動きを分離することで、前景と背景のダイナミクスを同時に学習する手法を提案する。我々は、この革新的な動きの描写アプローチによって強化された現実世界の動画を訓練する。誤りを蓄積することなく、より長いシーケンスにビデオ生成をさらに拡張するために、クリップ・バイ・クリップ・ジェネレーション・ストラテジーを採用する。
論文参考訳（メタデータ） (2024-05-26T00:53:26Z)
Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。 SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文参考訳（メタデータ） (2024-03-15T10:36:24Z)
Customizing Motion in Text-to-Video Diffusion Models [79.4121510826141]
動作をカスタマイズしたテキスト・ビデオ・ジェネレーション・モデルを構築するためのアプローチを提案する。入力として特定の動きを示すビデオサンプルを活用することで,入力動作パターンを多種多様なテキスト特定シナリオに対して学習し,一般化する。
論文参考訳（メタデータ） (2023-12-07T18:59:03Z)
VMC: Video Motion Customization using Temporal Attention Adaption for Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文参考訳（メタデータ） (2023-12-01T06:50:11Z)
LaMD: Latent Motion Diffusion for Image-Conditional Video Generation [63.34574080016687]
LaMDフレームワークは、モーション分解されたビデオオートエンコーダと拡散に基づくモーションジェネレータで構成される。 LaMDは、BAIR、Landscape、NATOPS、MUG、CATER-GENなど、さまざまなベンチマークデータセットで高品質なビデオを生成する。
論文参考訳（メタデータ） (2023-04-23T10:32:32Z)
Diverse Dance Synthesis via Keyframes with Transformer Controllers [10.23813069057791]
本稿では,複数の制約に基づく動きに基づく動き生成ネットワークを提案し,学習知識を用いて多様なダンス合成を実現する。我々のネットワークのバックボーンは2つの長い短期記憶(LSTM)ユニットからなる階層的RNNモジュールであり、最初のLSTMを用いて歴史的フレームの姿勢情報を潜時空間に埋め込む。本フレームワークは2つのTransformerベースのコントローラを備えており,それぞれがルート軌道と速度係数の制約をモデル化するために使用される。
論文参考訳（メタデータ） (2022-07-13T00:56:46Z)
Dynamic View Synthesis from Dynamic Monocular Video [69.80425724448344]
動的シーンの単眼映像を与えられた任意の視点と任意の入力時間ステップでビューを生成するアルゴリズムを提案する。カジュアルな映像からの動的ビュー合成の定量的および定性的な結果を示す。
論文参考訳（メタデータ） (2021-05-13T17:59:50Z)
Dual-MTGAN: Stochastic and Deterministic Motion Transfer for Image-to-Video Synthesis [38.41763708731513]
本稿では,映像データと映像データを入力として取り込むDual Motion Transfer GAN(Dual-MTGAN)を提案する。我々のDual-MTGANは、決定論的モーショントランスファーとモーションジェネレーションを行うことができる。提案モデルは、ポーズや顔のランドマークのような事前定義された動作特徴を利用することなく、エンドツーエンドでトレーニングされる。
論文参考訳（メタデータ） (2021-02-26T06:54:48Z)
Hierarchical Style-based Networks for Motion Synthesis [150.226137503563]
本研究では,特定の目標地点を達成するために,長距離・多種多様・多様な行動を生成する自己指導手法を提案する。提案手法は,長距離生成タスクを階層的に分解することで人間の動作をモデル化する。大規模な骨格データから, 提案手法は長距離, 多様な, もっともらしい動きを合成できることを示す。
論文参考訳（メタデータ） (2020-08-24T02:11:02Z)
Non-Adversarial Video Synthesis with Learned Priors [53.26777815740381]
我々は、参照入力フレームを使わずに、遅延雑音ベクトルからビデオを生成する問題に焦点をあてる。本研究では,入力潜時空間,繰り返しニューラルネットワークの重み付け,非対角学習によるジェネレータを協調的に最適化する手法を開発した。提案手法は,既存の最先端手法と比較して高品質なビデオを生成する。
論文参考訳（メタデータ） (2020-03-21T02:57:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。