Fugu-MT 論文翻訳(概要): S-HR-VQVAE: Sequential Hierarchical Residual Learning Vector Quantized Variational Autoencoder for Video Prediction

論文の概要: S-HR-VQVAE: Sequential Hierarchical Residual Learning Vector Quantized Variational Autoencoder for Video Prediction

arxiv url: http://arxiv.org/abs/2307.06701v3
Date: Tue, 19 Nov 2024 13:09:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:29.114768
Title: S-HR-VQVAE: Sequential Hierarchical Residual Learning Vector Quantized Variational Autoencoder for Video Prediction
Title（参考訳）: S-HR-VQVAE:映像予測のための逐次階層型残差学習ベクトル量子化変分オートエンコーダ
Authors: Mohammad Adiban, Kalin Stefanov, Sabato Marco Siniscalchi, Giampiero Salvi,
Abstract要約: 我々は,新しい残差ベクトル学習量子化変分オートエンコーダ(HR-VQE)と階層的自己回帰ベクトル予測モデル(AST-PM)を組み合わせた新しいモデルを提案する。我々は,モデルサイズがはるかに小さいにもかかわらず,定量評価と定性評価の両面で,最先端のビデオ予測手法と比較して好意的に比較した。
参考スコア（独自算出の注目度）: 16.14728977379756
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We address the video prediction task by putting forth a novel model that combines (i) a novel hierarchical residual learning vector quantized variational autoencoder (HR-VQVAE), and (ii) a novel autoregressive spatiotemporal predictive model (AST-PM). We refer to this approach as a sequential hierarchical residual learning vector quantized variational autoencoder (S-HR-VQVAE). By leveraging the intrinsic capabilities of HR-VQVAE at modeling still images with a parsimonious representation, combined with the AST-PM's ability to handle spatiotemporal information, S-HR-VQVAE can better deal with major challenges in video prediction. These include learning spatiotemporal information, handling high dimensional data, combating blurry prediction, and implicit modeling of physical characteristics. Extensive experimental results on four challenging tasks, namely KTH Human Action, TrafficBJ, Human3.6M, and Kitti, demonstrate that our model compares favorably against state-of-the-art video prediction techniques both in quantitative and qualitative evaluations despite a much smaller model size. Finally, we boost S-HR-VQVAE by proposing a novel training method to jointly estimate the HR-VQVAE and AST-PM parameters.
Abstract（参考訳）: 我々は、組み合わせた新しいモデルを作成することによって、映像予測課題に対処する。 (i)新しい階層的残差学習ベクトルの量子化変分オートエンコーダ(HR-VQVAE)および (II)新しい自己回帰時空間予測モデル(AST-PM)。本稿では、この手法を逐次階層的残差学習ベクトル量子化変分オートエンコーダ(S-HR-VQVAE)と呼ぶ。 S-HR-VQVAEは、時空間情報を扱うAST-PMの能力と相似表現による静止画像のモデリングにおける本質的な能力を活用することで、ビデオ予測における大きな課題に対処することができる。これには、時空間情報の学習、高次元データの処理、ぼやけた予測との闘い、物理的特性の暗黙的なモデリングが含まれる。 KTH Human Action、TrafficBJ、Human3.6M、Kittiの4つの課題に対する大規模な実験結果から、モデルサイズがはるかに小さいにもかかわらず、定量的および定性的な評価において、最先端のビデオ予測技術と良好に比較できることが示された。最後に、HR-VQVAEとAST-PMパラメータを共同で推定する新しいトレーニング手法を提案することにより、S-HR-VQVAEを向上する。

関連論文リスト

Breaking Annotation Barriers: Generalized Video Quality Assessment via Ranking-based Self-Supervision [49.46606936180063]
ビデオ品質評価(VQA)は、様々なビデオ処理システムにおける品質の定量化に不可欠である。我々はVQAのための自己教師型学習フレームワークを導入し、大規模でラベルなしのWebビデオから品質評価機能を学ぶ。既存のVQAベンチマークよりも10倍のデータセットでトレーニングを行うことで、ゼロショットのパフォーマンスを実現しています。
論文参考訳（メタデータ） (2025-05-06T15:29:32Z)
Latent Thought Models with Variational Bayes Inference-Time Computation [52.63299874322121]
ラテント思考モデル(LTM)は、ラテント空間における明示的な事前モデルに従う明示的なラテント思考ベクトルを包含する。 LTMは自己回帰モデルや離散拡散モデルよりも優れたサンプルおよびパラメータ効率を示す。
論文参考訳（メタデータ） (2025-02-03T17:50:34Z)
Autoregressive Video Generation without Vector Quantization [90.87907377618747]
本研究では,時間フレーム毎の予測の非量子化自己回帰モデルとしてビデオ生成問題を再構成する。提案手法では,ベクトル量子化のない新しい自己回帰モデルであるNOVAを訓練する。以上の結果から,NOVAはデータ効率,推論速度,視覚的忠実度,映像流速において,従来の自己回帰ビデオモデルよりもはるかに小さいモデルキャパシティを有することがわかった。
論文参考訳（メタデータ） (2024-12-18T18:59:53Z)
SalFoM: Dynamic Saliency Prediction with Video Foundation Models [37.25208752620703]
ビデオサリエンシ予測(VSP)は人間の視覚システムと比較して有望な性能を示した。本稿では,新しいエンコーダデコーダビデオトランスアーキテクチャであるSalFoMを紹介する。本モデルはUnMasked Teacher(UMT)抽出器を使用し,異種デコーダを意識した時間変換器を提案する。
論文参考訳（メタデータ） (2024-04-03T22:38:54Z)
Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。 DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文参考訳（メタデータ） (2023-11-09T05:24:20Z)
Koopman Invertible Autoencoder: Leveraging Forward and Backward Dynamics for Temporal Modeling [13.38194491846739]
我々は、Koopman Invertible Autoencoders (KIA) と呼ぶ、Koopman演算子理論に基づく新しい機械学習モデルを提案する。 KIAは、無限次元ヒルベルト空間における前方と後方のダイナミクスをモデル化することによって、システムの固有の特性を捉えている。これにより,低次元表現を効率よく学習し,長期システムの挙動をより正確に予測することが可能になる。
論文参考訳（メタデータ） (2023-09-19T03:42:55Z)
Spatio-Temporal Encoding of Brain Dynamics with Surface Masked Autoencoders [10.097983222759884]
表面仮面オートエンコーダ(sMAE)と表面仮面オートエンコーダ(MAE) これらのモデルは、皮質発達と構造関数の強力な潜在表現を学習することにより、入力のマスクされたバージョンから皮質特徴写像を再構築するように訓練されている。以上の結果から, (v)sMAE事前学習モデルでは, 複数のタスクにおける表現型予測性能が約26%向上し,スクラッチからトレーニングしたモデルに対してより高速な収束が得られた。
論文参考訳（メタデータ） (2023-08-10T10:01:56Z)
Contextually Enhanced ES-dRNN with Dynamic Attention for Short-Term Load Forecasting [1.1602089225841632]
提案手法は,コンテキストトラックとメイントラックという,同時に訓練された2つのトラックから構成される。 RNNアーキテクチャは、階層的な拡張を積み重ねた複数の繰り返し層で構成され、最近提案された注意的再帰細胞を備えている。このモデルは点予測と予測間隔の両方を生成する。
論文参考訳（メタデータ） (2022-12-18T07:42:48Z)
IDM-Follower: A Model-Informed Deep Learning Method for Long-Sequence Car-Following Trajectory Prediction [24.94160059351764]
ほとんどの自動車追従モデルは生成的であり、最後のステップの速度、位置、加速度の入力のみを考慮する。 2つの独立したエンコーダと、次の軌道を逐次予測できる自己アテンションデコーダを備えた新しい構造を実装した。シミュレーションとNGSIMデータセットの複数の設定による数値実験により、IMM-Followerは予測性能を向上させることができることが示された。
論文参考訳（メタデータ） (2022-10-20T02:24:27Z)
CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文参考訳（メタデータ） (2022-06-29T15:22:01Z)
Closed-form Continuous-Depth Models [99.40335716948101]
連続深度ニューラルモデルは高度な数値微分方程式解法に依存している。我々は,CfCネットワークと呼ばれる,記述が簡単で,少なくとも1桁高速な新しいモデル群を提示する。
論文参考訳（メタデータ） (2021-06-25T22:08:51Z)
Why Do Pretrained Language Models Help in Downstream Tasks? An Analysis of Head and Prompt Tuning [66.44344616836158]
本稿では,事前学習タスクと下流タスクをテキストの潜在変数生成モデルに関連付ける分析フレームワークを提案する。 HMMの特定の非退化条件下では、単純な分類ヘッドがダウンストリームタスクを解くことができ、また、迅速なチューニングにより、より弱い非退化条件で下流の保証を得ることができ、さらに、メモリ拡張HMMの回復保証がバニラHMMよりも強いことを示す。
論文参考訳（メタデータ） (2021-06-17T03:31:47Z)
DiscreTalk: Text-to-Speech as a Machine Translation Problem [52.33785857500754]
本稿ではニューラルマシン翻訳(NMT)に基づくエンドツーエンドテキスト音声合成(E2E-TTS)モデルを提案する。提案モデルは,非自己回帰ベクトル量子化変分オートエンコーダ(VQ-VAE)モデルと自己回帰トランスフォーマー-NMTモデルという2つのコンポーネントから構成される。
論文参考訳（メタデータ） (2020-05-12T02:45:09Z)
Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2020-02-21T05:00:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。