論文の概要: S-HR-VQVAE: Sequential Hierarchical Residual Learning Vector Quantized
Variational Autoencoder for Video Prediction
- arxiv url: http://arxiv.org/abs/2307.06701v1
- Date: Thu, 13 Jul 2023 11:58:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-14 15:00:56.205618
- Title: S-HR-VQVAE: Sequential Hierarchical Residual Learning Vector Quantized
Variational Autoencoder for Video Prediction
- Title(参考訳): S-HR-VQVAE:映像予測のための逐次階層型残差学習ベクトル量子化変分オートエンコーダ
- Authors: Mohammad Adiban, Kalin Stefanov, Sabato Marco Siniscalchi, Giampiero
Salvi
- Abstract要約: 量子化可変ベクトルオートコーダ(SHR-VQE)の逐次階層的残差学習能力を提案する。
SHR-VQEは、時間的データの学習、高いぼやけた予測の処理、物理特性の暗黙的なモデリングなど、ビデオ予測の課題に対処できることを示す。
- 参考スコア(独自算出の注目度): 19.92324010429006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the video prediction task by putting forth a novel model that
combines (i) our recently proposed hierarchical residual vector quantized
variational autoencoder (HR-VQVAE), and (ii) a novel spatiotemporal PixelCNN
(ST-PixelCNN). We refer to this approach as a sequential hierarchical residual
learning vector quantized variational autoencoder (S-HR-VQVAE). By leveraging
the intrinsic capabilities of HR-VQVAE at modeling still images with a
parsimonious representation, combined with the ST-PixelCNN's ability at
handling spatiotemporal information, S-HR-VQVAE can better deal with chief
challenges in video prediction. These include learning spatiotemporal
information, handling high dimensional data, combating blurry prediction, and
implicit modeling of physical characteristics. Extensive experimental results
on the KTH Human Action and Moving-MNIST tasks demonstrate that our model
compares favorably against top video prediction techniques both in quantitative
and qualitative evaluations despite a much smaller model size. Finally, we
boost S-HR-VQVAE by proposing a novel training method to jointly estimate the
HR-VQVAE and ST-PixelCNN parameters.
- Abstract(参考訳): 我々は、組み合わせた新しいモデルを作成することによって、映像予測課題に対処する。
(i)最近提案した階層的残差ベクトル量子化変分オートエンコーダ(HR-VQVAE)と
(II)新しい時空間PixelCNN(ST-PixelCNN)。
本手法を逐次階層的残差学習ベクトル量子化変分オートエンコーダ (s-hr-vqvae) と呼ぶ。
S-HR-VQVAEは、時空間情報を扱うST-PixelCNNの能力と相似表現による静止画像のモデリングにおける本質的な能力を活用することで、ビデオ予測における主要な課題に対処することができる。
これには、時空間情報の学習、高次元データの処理、ぼやけた予測の対処、物理的特性の暗黙的モデリングが含まれる。
kthヒューマンアクションとmove-mnistタスクに関する広範な実験結果から,モデルサイズがはるかに小さいにもかかわらず,定量的および質的評価において,トップビデオ予測手法と比較した結果が得られた。
最後に、HR-VQVAEとST-PixelCNNパラメータを共同で推定する新しいトレーニング手法を提案することにより、S-HR-VQVAEを向上する。
関連論文リスト
- Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - ESVAE: An Efficient Spiking Variational Autoencoder with
Reparameterizable Poisson Spiking Sampling [8.3257854205398]
可変オートエンコーダ(VAE)は、最も人気のある画像生成モデルの一つである。
現在のVAE法は、精巧な自己回帰ネットワークによって潜在空間を暗黙的に構築する。
本稿では,解釈可能な潜在空間分布を構成する効率的なスパイキング変分オートエンコーダ(ESVAE)を提案する。
論文 参考訳(メタデータ) (2023-10-23T12:01:10Z) - Contextually Enhanced ES-dRNN with Dynamic Attention for Short-Term Load
Forecasting [1.1602089225841632]
提案手法は,コンテキストトラックとメイントラックという,同時に訓練された2つのトラックから構成される。
RNNアーキテクチャは、階層的な拡張を積み重ねた複数の繰り返し層で構成され、最近提案された注意的再帰細胞を備えている。
このモデルは点予測と予測間隔の両方を生成する。
論文 参考訳(メタデータ) (2022-12-18T07:42:48Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Dynamically-Scaled Deep Canonical Correlation Analysis [77.34726150561087]
カノニカル相関解析 (CCA) は, 2つのビューの特徴抽出手法である。
本稿では,入力依存の正準相関モデルをトレーニングするための新しい動的スケーリング手法を提案する。
論文 参考訳(メタデータ) (2022-03-23T12:52:49Z) - Equivariant vector field network for many-body system modeling [65.22203086172019]
Equivariant Vector Field Network (EVFN) は、新しい同変層と関連するスカラー化およびベクトル化層に基づいて構築されている。
シミュレーションされたニュートン力学系の軌跡を全観測データと部分観測データで予測する手法について検討した。
論文 参考訳(メタデータ) (2021-10-26T14:26:25Z) - ECQ$^{\text{x}}$: Explainability-Driven Quantization for Low-Bit and
Sparse DNNs [13.446502051609036]
我々はディープニューラルネットワーク(DNN)のための新しい量子化パラダイムを開発し、記述する。
本手法は,説明可能なAI(XAI)の概念と情報理論の概念を活用する。
最終的な目標は、最高の情報内容の量子化クラスタにおいて、最も関連性の高い重みを維持することである。
論文 参考訳(メタデータ) (2021-09-09T12:57:06Z) - Closed-form Continuous-Depth Models [99.40335716948101]
連続深度ニューラルモデルは高度な数値微分方程式解法に依存している。
我々は,CfCネットワークと呼ばれる,記述が簡単で,少なくとも1桁高速な新しいモデル群を提示する。
論文 参考訳(メタデータ) (2021-06-25T22:08:51Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z) - Visual Summary of Value-level Feature Attribution in Prediction Classes
with Recurrent Neural Networks [26.632390778592367]
異なる特徴値に対する時間的帰属を視覚的に要約する対話型システムViSFAを提案する。
我々は、複雑な属性をコンパクトで分かりやすい視覚化に蒸留することにより、RNN予測とデータからの洞察を明らかにするのに、ViSFAが役立つことを実証した。
論文 参考訳(メタデータ) (2020-01-23T05:38:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。