論文の概要: Modelling Latent Dynamics of StyleGAN using Neural ODEs
- arxiv url: http://arxiv.org/abs/2208.11197v2
- Date: Sat, 22 Apr 2023 20:18:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 23:55:55.711452
- Title: Modelling Latent Dynamics of StyleGAN using Neural ODEs
- Title(参考訳): ニューラルネットワークによるスタイルGANの潜時ダイナミクスのモデル化
- Authors: Weihao Xia and Yujiu Yang and Jing-Hao Xue
- Abstract要約: 我々は、GANから独立に反転した潜在符号の軌跡を学習する。
学習した連続軌道により、無限のフレームと一貫したビデオ操作を行うことができる。
提案手法は最先端の性能を実現するが,計算量が少なくなる。
- 参考スコア(独自算出の注目度): 52.03496093312985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose to model the video dynamics by learning the
trajectory of independently inverted latent codes from GANs. The entire
sequence is seen as discrete-time observations of a continuous trajectory of
the initial latent code, by considering each latent code as a moving particle
and the latent space as a high-dimensional dynamic system. The latent codes
representing different frames are therefore reformulated as state transitions
of the initial frame, which can be modeled by neural ordinary differential
equations. The learned continuous trajectory allows us to perform infinite
frame interpolation and consistent video manipulation. The latter task is
reintroduced for video editing with the advantage of requiring the core
operations to be applied to the first frame only while maintaining temporal
consistency across all frames. Extensive experiments demonstrate that our
method achieves state-of-the-art performance but with much less computation.
Code is available at https://github.com/weihaox/dynode_released.
- Abstract(参考訳): 本稿では,gansから独立反転潜在符号の軌跡を学習することにより,動画のダイナミックスをモデル化する。
各潜在コードは移動粒子として、潜在空間は高次元の力学系として考えることにより、シーケンス全体が初期潜在コードの連続軌道の離散時間観測と見なされる。
したがって、異なるフレームを表す潜在符号は、ニューラル常微分方程式でモデル化できる初期フレームの状態遷移として再構成される。
学習した連続軌道は無限フレーム補間と一貫したビデオ操作を可能にする。
後者のタスクは、全てのフレーム間の時間的一貫性を維持しながら、第1のフレームにコア操作を適用する必要があるという利点を生かして、ビデオ編集のために再導入される。
広範な実験により,本手法は最先端の性能を実現するが,計算量は少なくなることを示した。
コードはhttps://github.com/weihaox/dynode_releasedで入手できる。
関連論文リスト
- Unfolding Videos Dynamics via Taylor Expansion [5.723852805622308]
ビデオの自己教師型動的学習戦略について紹介する: インスタンス識別のためのビデオ時間差分法(ViDiDi)
ViDiDiは、フレームシーケンスの時間的デリバティブのさまざまな順序を通して、ビデオの異なる側面を観察する。
ViDiDiは、ビデオとその時間微分を一貫した埋め込みにエンコードする単一のニューラルネットワークを学習する。
論文 参考訳(メタデータ) (2024-09-04T01:41:09Z) - VDG: Vision-Only Dynamic Gaussian for Driving Simulation [112.6139608504842]
ポーズフリーな動的ガウス法(VDG)に自己教師付きVOを導入する。
VDGはRGB画像入力のみで動作可能で、ポーズフリーのダイナミックビュー合成法に比べて高速で広いシーンで動的シーンを構築することができる。
その結果,現状の動的ビュー合成法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-06-26T09:29:21Z) - Continuous Learned Primal Dual [10.111901389604423]
ニューラルネットワークの階層列は、単にODEの離散化であり、パラメータ化されたODEによって直接モデル化できるという考えを提唱する。
本研究では,ニューラルネットワークを用いた逆問題,特によく知られたLearned Primal Dualアルゴリズムについて検討し,CT(Computerd tomography)再構成に適用する。
論文 参考訳(メタデータ) (2024-05-03T20:40:14Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Continuous-Time Video Generation via Learning Motion Dynamics with
Neural ODE [26.13198266911874]
動きと外観の異なる分布を学習する新しい映像生成手法を提案する。
本稿では,第1段階が任意のフレームレートで雑音ベクトルをキーポイント列に変換し,第2段階が与えられたキーポイントシーケンスと外観雑音ベクトルに基づいて映像を合成する2段階の手法を用いる。
論文 参考訳(メタデータ) (2021-12-21T03:30:38Z) - Simple Video Generation using Neural ODEs [9.303957136142293]
我々は、潜在空間の将来を予測する潜在変数モデルを学び、ピクセルに投影する。
1桁と2桁の移動MNISTデータセットにおける将来のフレーム予測のタスクにおいて,提案手法が有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2021-09-07T19:03:33Z) - Dynamic View Synthesis from Dynamic Monocular Video [69.80425724448344]
動的シーンの単眼映像を与えられた任意の視点と任意の入力時間ステップでビューを生成するアルゴリズムを提案する。
カジュアルな映像からの動的ビュー合成の定量的および定性的な結果を示す。
論文 参考訳(メタデータ) (2021-05-13T17:59:50Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。