論文の概要: A Log-likelihood Regularized KL Divergence for Video Prediction with A
3D Convolutional Variational Recurrent Network
- arxiv url: http://arxiv.org/abs/2012.06123v1
- Date: Fri, 11 Dec 2020 05:05:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-14 09:11:56.322260
- Title: A Log-likelihood Regularized KL Divergence for Video Prediction with A
3D Convolutional Variational Recurrent Network
- Title(参考訳): 3次元畳み込みリカレントネットワークによる映像予測のためのログ状正規化KL分散
- Authors: Haziq Razali and Basura Fernando
- Abstract要約: フレーム予測のタスクに対して,リカレントネットワークを2つの方法で拡張する新しい変分モデルを提案する。
まず、将来の予測フレームのリカレントモデル、シーケンス入力、各時間ステップでの映像フレーム出力を含む全モジュールに3次元畳み込みを導入する。
第2に,変分モデルで一般的に用いられるklに加えて,最大確率推定を導入することにより,変分モデルの潜在損失予測を強化する。
- 参考スコア(独自算出の注目度): 17.91970304953206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of latent variable models has shown to be a powerful tool for
modeling probability distributions over sequences. In this paper, we introduce
a new variational model that extends the recurrent network in two ways for the
task of video frame prediction. First, we introduce 3D convolutions inside all
modules including the recurrent model for future frame prediction, inputting
and outputting a sequence of video frames at each timestep. This enables us to
better exploit spatiotemporal information inside the variational recurrent
model, allowing us to generate high-quality predictions. Second, we enhance the
latent loss of the variational model by introducing a maximum likelihood
estimate in addition to the KL divergence that is commonly used in variational
models. This simple extension acts as a stronger regularizer in the variational
autoencoder loss function and lets us obtain better results and
generalizability. Experiments show that our model outperforms existing video
prediction methods on several benchmarks while requiring fewer parameters.
- Abstract(参考訳): 潜在変数モデルの使用は、シーケンス上の確率分布をモデル化する強力なツールであることが示されている。
本稿では,ビデオフレーム予測の課題に対して,リカレントネットワークを2つの方法で拡張する新しい変動モデルを提案する。
まず,リカレントモデルを含む全モジュールに3次元畳み込みを導入してフレーム予測を行い,各時間ステップでビデオフレームのシーケンスを入力・出力する。
これにより、変動反復モデル内の時空間情報をよりうまく活用し、高品質な予測を生成できる。
第2に,変分モデルで一般的に用いられるkl発散に加えて,最大確率推定を導入することにより,変分モデルの潜在損失を増大させる。
この単純な拡張は変分自己エンコーダ損失関数のより強力な正則化器として機能し、より良い結果と一般化性が得られる。
実験により,本モデルは,パラメータを少なくしながら,複数のベンチマークで既存の映像予測手法より優れていることが示された。
関連論文リスト
- Predictive Churn with the Set of Good Models [64.05949860750235]
近似機械学習モデルの集合に対する競合予測の効果について検討する。
ラーショモン集合内のモデル間の係り受けに関する理論的結果を示す。
当社のアプローチは、コンシューマ向けアプリケーションにおいて、より予測し、削減し、混乱を避けるためにどのように使用できるかを示します。
論文 参考訳(メタデータ) (2024-02-12T16:15:25Z) - Video Prediction by Efficient Transformers [14.685237010856953]
本稿では,ビデオ予測のためのトランスフォーマーモデルについて紹介する。
実験により、提案したビデオ予測モデルは、より複雑な最先端の畳み込み-LSTMベースのモデルと競合することが示された。
論文 参考訳(メタデータ) (2022-12-12T16:46:48Z) - HARP: Autoregressive Latent Video Prediction with High-Fidelity Image
Generator [90.74663948713615]
我々は,高忠実度未来のフレームを予測可能な自己回帰遅延映像予測モデルを訓練する。
既存のモデルに最小限の修正を加えて高解像度(256x256)ビデオを作成する。
論文 参考訳(メタデータ) (2022-09-15T08:41:57Z) - Hierarchical Latent Structure for Multi-Modal Vehicle Trajectory
Forecasting [0.0]
VAEに基づく軌道予測モデルに階層的潜在構造を導入する。
本モデルでは,複数モーダルな軌道分布を明瞭に生成し,予測精度で最先端(SOTA)モデルより優れる。
論文 参考訳(メタデータ) (2022-07-11T04:52:28Z) - Multi-Contextual Predictions with Vision Transformer for Video Anomaly
Detection [22.098399083491937]
ビデオの時間的文脈を理解することは、異常検出において重要な役割を果たす。
我々は3つの異なる文脈予測ストリームを持つトランスモデルを設計する。
連続する正常フレームの欠落フレームの予測を学習することにより、ビデオ内の様々な正常パターンを効果的に学習することができる。
論文 参考訳(メタデータ) (2022-06-17T05:54:31Z) - Adaptive Graph Convolutional Network Framework for Multidimensional Time
Series Prediction [6.962213869946514]
本稿では,主に時系列予測における隠れ次元依存性を捉える適応型グラフニューラルネットワークを提案する。
グラフ畳み込みネットワークを様々な時系列予測モデルに統合し、異なる次元間の関係を捉えることができない欠陥を解決する。
私たちのフレームワークの精度は、モデルに導入されてから約10%向上しました。
論文 参考訳(メタデータ) (2022-05-08T04:50:16Z) - Distribution-Aware Single-Stage Models for Multi-Person 3D Pose
Estimation [29.430404703883084]
本稿では,多人数の3Dポーズ推定問題に対処する新しいDASモデルを提案する。
提案するDASモデルでは,3次元カメラ空間における人物位置と人体関節をワンパスで同時に位置決めする。
CMU Panoptic と MuPoTS-3D のベンチマークに関する総合的な実験は、提案したDASモデルの優れた効率を実証している。
論文 参考訳(メタデータ) (2022-03-15T07:30:27Z) - Probabilistic Modeling for Human Mesh Recovery [73.11532990173441]
本稿では,2次元の証拠から3次元の人体復元の問題に焦点を当てた。
我々は,この問題を,入力から3Dポーズの分布へのマッピング学習として再考した。
論文 参考訳(メタデータ) (2021-08-26T17:55:11Z) - Greedy Hierarchical Variational Autoencoders for Large-Scale Video
Prediction [79.23730812282093]
本稿では,階層型オートエンコーダの各レベルを厳格に訓練することにより,高忠実度映像予測を学習するGreedy Hierarchical Variational Autoencoders(GHVAEs)を紹介する。
GHVAEは4つのビデオデータセットで予測性能が17~55%向上し、実際のロボットタスクで35~40%向上し、モジュールを追加するだけでパフォーマンスを単調に改善することができる。
論文 参考訳(メタデータ) (2021-03-06T18:58:56Z) - Anomaly Detection of Time Series with Smoothness-Inducing Sequential
Variational Auto-Encoder [59.69303945834122]
Smoothness-Inducing Sequential Variational Auto-Encoder (SISVAE) モデルを提案する。
我々のモデルは、フレキシブルニューラルネットワークを用いて各タイムスタンプの平均と分散をパラメータ化する。
合成データセットと公開実世界のベンチマークの両方において,本モデルの有効性を示す。
論文 参考訳(メタデータ) (2021-02-02T06:15:15Z) - Consistency Guided Scene Flow Estimation [159.24395181068218]
CGSFは立体映像からの3次元シーン構造と動きの同時再構成のための自己教師型フレームワークである。
提案モデルでは,課題の画像の相違やシーンフローを確実に予測できることを示す。
最先端技術よりも優れた一般化を実現し、目に見えない領域に迅速かつ堅牢に適応する。
論文 参考訳(メタデータ) (2020-06-19T17:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。