論文の概要: Continuous conditional video synthesis by neural processes
- arxiv url: http://arxiv.org/abs/2210.05810v1
- Date: Tue, 11 Oct 2022 22:26:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 14:28:33.665652
- Title: Continuous conditional video synthesis by neural processes
- Title(参考訳): 神経プロセスによる連続条件ビデオ合成
- Authors: Xi Ye, Guillaume-Alexandre Bilodeau
- Abstract要約: 条件付きビデオ合成はニューラルプロセスとして定式化可能であることを示す。
暗黙的なニューラルプロセスをTransformerベースの条件付きビデオモデルに入力する。
モデルは任意の高いフレームレートで補間または予測することができる。
- 参考スコア(独自算出の注目度): 14.685237010856953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a unified model for multiple conditional video synthesis tasks,
including video prediction and video frame interpolation. We show that
conditional video synthesis can be formulated as a neural process, which maps
input spatio-temporal coordinates to target pixel values given context
spatio-temporal coordinates and pixels values. Specifically, we feed an
implicit neural representations of coordinates into a Transformer-based
non-autoregressive conditional video synthesis model. Our task-specific models
outperform previous work for video interpolation on multiple datasets and reach
a competitive performance with the state-of-the-art models for video
prediction. Importantly, the model is able to interpolate or predict with an
arbitrary high frame rate, i.e., continuous synthesis. Our source code is
available at \url{https://github.com/NPVS/NPVS}.
- Abstract(参考訳): 本稿では,映像予測やフレーム補間を含む複数の条件付きビデオ合成タスクの統一モデルを提案する。
条件付きビデオ合成は、入力時空間座標を文脈時空間座標と画素値にマッピングするニューラルプロセスとして定式化できることを示す。
具体的には、トランスフォーマーに基づく非自己回帰的条件付きビデオ合成モデルに座標の暗黙的な神経表現を与える。
タスク固有モデルは、複数のデータセット上での映像補間における従来の作業よりも優れており、ビデオ予測のための最先端モデルと競合する性能に達する。
重要なことに、モデルは任意の高いフレームレート、すなわち連続合成で補間または予測することができる。
ソースコードは \url{https://github.com/NPVS/NPVS} で公開されている。
関連論文リスト
- Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Streaming Dense Video Captioning [85.70265343236687]
濃密なビデオキャプションのための理想的なモデルは、長い入力ビデオを扱うことができ、リッチで詳細なテキスト記述を予測できる。
現在の最先端モデルは、一定の数のダウンサンプルフレームを処理し、ビデオ全体を見た後、単一の完全な予測を行う。
本稿では,2つの新しいコンポーネントからなるストリーミング高密度動画キャプションモデルを提案する。
論文 参考訳(メタデータ) (2024-04-01T17:59:15Z) - STDiff: Spatio-temporal Diffusion for Continuous Stochastic Video
Prediction [20.701792842768747]
時間領域上に無限次元の潜伏変数を持つ新しい映像予測モデルを提案する。
我々のモデルは、時間的連続予測、すなわち教師なしの方法で、任意に高いフレームレートで予測することができる。
論文 参考訳(メタデータ) (2023-12-11T16:12:43Z) - HARP: Autoregressive Latent Video Prediction with High-Fidelity Image
Generator [90.74663948713615]
我々は,高忠実度未来のフレームを予測可能な自己回帰遅延映像予測モデルを訓練する。
既存のモデルに最小限の修正を加えて高解像度(256x256)ビデオを作成する。
論文 参考訳(メタデータ) (2022-09-15T08:41:57Z) - VMFormer: End-to-End Video Matting with Transformer [48.97730965527976]
ビデオマッティングは、与えられた入力ビデオシーケンスから各フレームのアルファマットを予測することを目的としている。
ビデオマッチングの最近のソリューションは、ディープ畳み込みニューラルネットワーク(CNN)によって支配されている。
ビデオ・マッティングのためのトランスフォーマー・ベース・エンド・ツー・エンド方式であるVMFormerを提案する。
論文 参考訳(メタデータ) (2022-08-26T17:51:02Z) - Optimizing Video Prediction via Video Frame Interpolation [53.16726447796844]
本稿では,映像フレームスケープのフォトリアリスティックな結果にインスパイアされた,映像フレームによる映像予測のための新しい最適化フレームワークを提案する。
我々のフレームワークは、トレーニングデータセットを必要とせずに、事前訓練された差別化可能なビデオフレームモジュールによる最適化に基づいている。
我々の手法は、大量のトレーニングデータや余分な意味情報を必要とする他のビデオ予測手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-27T17:03:46Z) - Masked Conditional Video Diffusion for Prediction, Generation, and
Interpolation [14.631523634811392]
Masked Conditional Video Diffusion (MCVD) はビデオ予測のための汎用フレームワークである。
私たちは、過去のフレームや将来のフレームをすべて無作為に、無作為に、独立してマスクする方法でモデルをトレーニングします。
提案手法は,1~12日で計算時間を計測し,標準的なビデオ予測ベンチマークにまたがってSOTA結果を生成する。
論文 参考訳(メタデータ) (2022-05-19T20:58:05Z) - Video Prediction at Multiple Scales with Hierarchical Recurrent Networks [24.536256844130996]
本稿では,異なるレベルの粒度の将来の結果を同時に予測できる新しい映像予測モデルを提案する。
空間的および時間的ダウンサンプリングを組み合わせることで、MSPredは長い時間的地平線上での抽象表現を効率的に予測することができる。
実験では,提案モデルが将来の映像フレームだけでなく,様々なシナリオにおける他の表現を正確に予測できることを実証した。
論文 参考訳(メタデータ) (2022-03-17T13:08:28Z) - Greedy Hierarchical Variational Autoencoders for Large-Scale Video
Prediction [79.23730812282093]
本稿では,階層型オートエンコーダの各レベルを厳格に訓練することにより,高忠実度映像予測を学習するGreedy Hierarchical Variational Autoencoders(GHVAEs)を紹介する。
GHVAEは4つのビデオデータセットで予測性能が17~55%向上し、実際のロボットタスクで35~40%向上し、モジュールを追加するだけでパフォーマンスを単調に改善することができる。
論文 参考訳(メタデータ) (2021-03-06T18:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。