論文の概要: Vid-ODE: Continuous-Time Video Generation with Neural Ordinary
Differential Equation
- arxiv url: http://arxiv.org/abs/2010.08188v2
- Date: Tue, 30 Mar 2021 13:17:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 21:25:11.012468
- Title: Vid-ODE: Continuous-Time Video Generation with Neural Ordinary
Differential Equation
- Title(参考訳): Vid-ODE:ニューラル正規微分方程式を用いた連続時間ビデオ生成
- Authors: Sunghyun Park, Kangyeol Kim, Junsoo Lee, Jaegul Choo, Joonseok Lee,
Sookyung Kim, Edward Choi
- Abstract要約: 本稿では,ニューラルODE(Vid-ODE)と画素レベルの画像処理技術を組み合わせた連続時間ビデオ生成を提案する。
Vid-ODEは、現実世界のビデオを使った連続的なビデオ生成を成功させた最初の作品である。
- 参考スコア(独自算出の注目度): 42.85126020237214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video generation models often operate under the assumption of fixed frame
rates, which leads to suboptimal performance when it comes to handling flexible
frame rates (e.g., increasing the frame rate of the more dynamic portion of the
video as well as handling missing video frames). To resolve the restricted
nature of existing video generation models' ability to handle arbitrary
timesteps, we propose continuous-time video generation by combining neural ODE
(Vid-ODE) with pixel-level video processing techniques. Using ODE-ConvGRU as an
encoder, a convolutional version of the recently proposed neural ODE, which
enables us to learn continuous-time dynamics, Vid-ODE can learn the
spatio-temporal dynamics of input videos of flexible frame rates. The decoder
integrates the learned dynamics function to synthesize video frames at any
given timesteps, where the pixel-level composition technique is used to
maintain the sharpness of individual frames. With extensive experiments on four
real-world video datasets, we verify that the proposed Vid-ODE outperforms
state-of-the-art approaches under various video generation settings, both
within the trained time range (interpolation) and beyond the range
(extrapolation). To the best of our knowledge, Vid-ODE is the first work
successfully performing continuous-time video generation using real-world
videos.
- Abstract(参考訳): ビデオ生成モデルは、しばしば固定フレームレートの仮定の下で動作し、フレキシブルフレームレートの処理(例えば、ビデオのよりダイナミックな部分のフレームレートの増加や、失われたビデオフレームの処理など)に関して、最適以下のパフォーマンスをもたらす。
既存の映像生成モデルの任意の時間ステップを扱う能力の制限を解消するために,ニューラルode(vid-ode)とピクセルレベルの映像処理技術を組み合わせた連続時間映像生成を提案する。
最近提案されたニューラルODEの畳み込みバージョンであるODE-ConvGRUをエンコーダとして使用することで、連続時間ダイナミクスを学習できるため、Vid-ODEはフレキシブルフレームレートの入力ビデオの時空間ダイナミクスを学習できる。
デコーダは学習されたダイナミックス関数を統合し、任意の時間ステップでビデオフレームを合成し、ピクセルレベルの合成技術を用いて個々のフレームのシャープさを維持する。
実世界の4つのビデオデータセットに対する広範な実験により、提案したVid-ODEは、トレーニングされた時間範囲(補間)と範囲を超えて、様々なビデオ生成環境下で最先端のアプローチよりも優れていることを確認した。
私たちの知る限りでは、Vid-ODEは実世界のビデオを使って連続的なビデオ生成を成功させる最初の作品です。
関連論文リスト
- MotionAura: Generating High-Quality and Motion Consistent Videos using Discrete Diffusion [3.7270979204213446]
ビデオ処理の課題に対処するための4つの重要なコントリビューションを提示する。
まず,3次元逆ベクトル量子化バリエンコエンコオートコーダを紹介する。
次に,テキスト・ビデオ生成フレームワークであるMotionAuraを紹介する。
第3に,スペクトル変換器を用いたデノナイジングネットワークを提案する。
第4に,Sketch Guided Videopaintingのダウンストリームタスクを導入する。
論文 参考訳(メタデータ) (2024-10-10T07:07:56Z) - ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation [81.90265212988844]
本稿では,プラグイン・アンド・プレイ方式で生成ビデオモデルを作成するためのトレーニング不要なビデオ手法を提案する。
我々は,映像モデルを隠れ状態補正モジュールを備えた自己カスケード映像拡散モデルに変換する。
私たちのトレーニングフリーの手法は、巨大な計算リソースと大規模データセットによってサポートされているトレーニングモデルにさえ匹敵するものです。
論文 参考訳(メタデータ) (2024-06-03T00:31:13Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - ConditionVideo: Training-Free Condition-Guided Text-to-Video Generation [33.37279673304]
提案する条件, 映像, 入力テキストに基づいて, テキスト・ビデオ生成のためのトレーニング不要なアプローチである ConditionVideo を紹介する。
ConditionVideoはランダムノイズやシーンビデオからリアルなダイナミックビデオを生成する。
提案手法は,フレームの整合性,クリップスコア,条件精度において優れた性能を示し,他の比較手法よりも優れていた。
論文 参考訳(メタデータ) (2023-10-11T17:46:28Z) - VideoComposer: Compositional Video Synthesis with Motion Controllability [52.4714732331632]
VideoComposerを使えば、ユーザーはテキストの条件や空間的条件、さらに重要な時間的条件でビデオを柔軟に組み立てることができる。
圧縮ビデオからの運動ベクトルを明示的な制御信号として導入し、時間的ダイナミクスに関するガイダンスを提供する。
さらに、逐次入力の空間的・時間的関係を効果的に組み込むために、統一インターフェースとして機能する時空間条件エンコーダ(STC-エンコーダ)を開発した。
論文 参考訳(メタデータ) (2023-06-03T06:29:02Z) - ControlVideo: Training-free Controllable Text-to-Video Generation [117.06302461557044]
ControlVideoは、自然で効率的なテキスト・ビデオ生成を可能にするフレームワークである。
NVIDIA 2080Tiを使って、ショートビデオとロングビデオの両方を数分で生成する。
論文 参考訳(メタデータ) (2023-05-22T14:48:53Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。