論文の概要: S-HR-VQVAE: Sequential Hierarchical Residual Learning Vector Quantized Variational Autoencoder for Video Prediction
- arxiv url: http://arxiv.org/abs/2307.06701v3
- Date: Tue, 19 Nov 2024 13:09:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:34:46.373688
- Title: S-HR-VQVAE: Sequential Hierarchical Residual Learning Vector Quantized Variational Autoencoder for Video Prediction
- Title(参考訳): S-HR-VQVAE:映像予測のための逐次階層型残差学習ベクトル量子化変分オートエンコーダ
- Authors: Mohammad Adiban, Kalin Stefanov, Sabato Marco Siniscalchi, Giampiero Salvi,
- Abstract要約: 我々は,新しい残差ベクトル学習量子化変分オートエンコーダ(HR-VQE)と階層的自己回帰ベクトル予測モデル(AST-PM)を組み合わせた新しいモデルを提案する。
我々は,モデルサイズがはるかに小さいにもかかわらず,定量評価と定性評価の両面で,最先端のビデオ予測手法と比較して好意的に比較した。
- 参考スコア(独自算出の注目度): 16.14728977379756
- License:
- Abstract: We address the video prediction task by putting forth a novel model that combines (i) a novel hierarchical residual learning vector quantized variational autoencoder (HR-VQVAE), and (ii) a novel autoregressive spatiotemporal predictive model (AST-PM). We refer to this approach as a sequential hierarchical residual learning vector quantized variational autoencoder (S-HR-VQVAE). By leveraging the intrinsic capabilities of HR-VQVAE at modeling still images with a parsimonious representation, combined with the AST-PM's ability to handle spatiotemporal information, S-HR-VQVAE can better deal with major challenges in video prediction. These include learning spatiotemporal information, handling high dimensional data, combating blurry prediction, and implicit modeling of physical characteristics. Extensive experimental results on four challenging tasks, namely KTH Human Action, TrafficBJ, Human3.6M, and Kitti, demonstrate that our model compares favorably against state-of-the-art video prediction techniques both in quantitative and qualitative evaluations despite a much smaller model size. Finally, we boost S-HR-VQVAE by proposing a novel training method to jointly estimate the HR-VQVAE and AST-PM parameters.
- Abstract(参考訳): 我々は、組み合わせた新しいモデルを作成することによって、映像予測課題に対処する。
(i)新しい階層的残差学習ベクトルの量子化変分オートエンコーダ(HR-VQVAE)および
(II)新しい自己回帰時空間予測モデル(AST-PM)。
本稿では、この手法を逐次階層的残差学習ベクトル量子化変分オートエンコーダ(S-HR-VQVAE)と呼ぶ。
S-HR-VQVAEは、時空間情報を扱うAST-PMの能力と相似表現による静止画像のモデリングにおける本質的な能力を活用することで、ビデオ予測における大きな課題に対処することができる。
これには、時空間情報の学習、高次元データの処理、ぼやけた予測との闘い、物理的特性の暗黙的なモデリングが含まれる。
KTH Human Action、TrafficBJ、Human3.6M、Kittiの4つの課題に対する大規模な実験結果から、モデルサイズがはるかに小さいにもかかわらず、定量的および定性的な評価において、最先端のビデオ予測技術と良好に比較できることが示された。
最後に、HR-VQVAEとAST-PMパラメータを共同で推定する新しいトレーニング手法を提案することにより、S-HR-VQVAEを向上する。
関連論文リスト
- AI-Aided Kalman Filters [65.35350122917914]
カルマンフィルタ(KF)とその変種は、信号処理において最も著名なアルゴリズムの一つである。
最近の進歩は、古典的なカルマン型フィルタリングでディープニューラルネットワーク(DNN)を融合させる可能性を示している。
本稿では,KF型アルゴリズムにAIを組み込むための設計アプローチについて,チュートリアル形式で概説する。
論文 参考訳(メタデータ) (2024-10-16T06:47:53Z) - Variational autoencoder-based neural network model compression [4.992476489874941]
変分オートエンコーダ(VAE)は、深部生成モデルの一種であり、近年広く使われている。
本稿では,VAEに基づくニューラルネットワークモデル圧縮手法について検討する。
論文 参考訳(メタデータ) (2024-08-25T09:06:22Z) - SalFoM: Dynamic Saliency Prediction with Video Foundation Models [37.25208752620703]
ビデオサリエンシ予測(VSP)は人間の視覚システムと比較して有望な性能を示した。
本稿では,新しいエンコーダデコーダビデオトランスアーキテクチャであるSalFoMを紹介する。
本モデルはUnMasked Teacher(UMT)抽出器を使用し,異種デコーダを意識した時間変換器を提案する。
論文 参考訳(メタデータ) (2024-04-03T22:38:54Z) - Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - ESVAE: An Efficient Spiking Variational Autoencoder with Reparameterizable Poisson Spiking Sampling [20.36674120648714]
可変オートエンコーダ(VAE)は、最も人気のある画像生成モデルの一つである。
現在のVAE法は、精巧な自己回帰ネットワークによって潜在空間を暗黙的に構築する。
本稿では,解釈可能な潜在空間分布を構成する効率的なスパイキング変分オートエンコーダ(ESVAE)を提案する。
論文 参考訳(メタデータ) (2023-10-23T12:01:10Z) - Contextually Enhanced ES-dRNN with Dynamic Attention for Short-Term Load
Forecasting [1.1602089225841632]
提案手法は,コンテキストトラックとメイントラックという,同時に訓練された2つのトラックから構成される。
RNNアーキテクチャは、階層的な拡張を積み重ねた複数の繰り返し層で構成され、最近提案された注意的再帰細胞を備えている。
このモデルは点予測と予測間隔の両方を生成する。
論文 参考訳(メタデータ) (2022-12-18T07:42:48Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Dynamically-Scaled Deep Canonical Correlation Analysis [77.34726150561087]
カノニカル相関解析 (CCA) は, 2つのビューの特徴抽出手法である。
本稿では,入力依存の正準相関モデルをトレーニングするための新しい動的スケーリング手法を提案する。
論文 参考訳(メタデータ) (2022-03-23T12:52:49Z) - Closed-form Continuous-Depth Models [99.40335716948101]
連続深度ニューラルモデルは高度な数値微分方程式解法に依存している。
我々は,CfCネットワークと呼ばれる,記述が簡単で,少なくとも1桁高速な新しいモデル群を提示する。
論文 参考訳(メタデータ) (2021-06-25T22:08:51Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。