論文の概要: Predictive Coding Based Multiscale Network with Encoder-Decoder LSTM for
Video Prediction
- arxiv url: http://arxiv.org/abs/2212.11642v3
- Date: Sun, 8 Oct 2023 15:19:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 15:28:13.907194
- Title: Predictive Coding Based Multiscale Network with Encoder-Decoder LSTM for
Video Prediction
- Title(参考訳): ビデオ予測のためのエンコーダデコーダLSTMを用いた予測符号化に基づくマルチスケールネットワーク
- Authors: Chaofan Ling, Junpei Zhong and Weihua Li
- Abstract要約: 将来のビデオフレーム予測のためのマルチスケール予測符号化モデルを提案する。
我々のモデルは、より高レベルなニューロンが粗い予測(より低解像度)を生成するマルチスケールアプローチ(粗から微細)を採用している。
本稿では,長期予測における予測誤差の蓄積を軽減するためのトレーニング戦略のいくつかの改善を提案する。
- 参考スコア(独自算出の注目度): 1.2537993038844142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a multi-scale predictive coding model for future video frames
prediction. Drawing inspiration on the ``Predictive Coding" theories in
cognitive science, it is updated by a combination of bottom-up and top-down
information flows, which can enhance the interaction between different network
levels. However, traditional predictive coding models only predict what is
happening hierarchically rather than predicting the future. To address the
problem, our model employs a multi-scale approach (Coarse to Fine), where the
higher level neurons generate coarser predictions (lower resolution), while the
lower level generate finer predictions (higher resolution). In terms of network
architecture, we directly incorporate the encoder-decoder network within the
LSTM module and share the final encoded high-level semantic information across
different network levels. This enables comprehensive interaction between the
current input and the historical states of LSTM compared with the traditional
Encoder-LSTM-Decoder architecture, thus learning more believable temporal and
spatial dependencies. Furthermore, to tackle the instability in adversarial
training and mitigate the accumulation of prediction errors in long-term
prediction, we propose several improvements to the training strategy. Our
approach achieves good performance on datasets such as KTH, Moving MNIST and
Caltech Pedestrian. Code is available at https://github.com/Ling-CF/MSPN.
- Abstract(参考訳): 将来のビデオフレーム予測のためのマルチスケール予測符号化モデルを提案する。
認知科学における「予測的コーディング」理論に着想を得て、ボトムアップとトップダウンの情報フローの組み合わせによって更新され、異なるネットワークレベル間の相互作用が強化される。
しかし、従来の予測コーディングモデルは、未来を予測するのではなく、階層的に起きていることを予測しているだけである。
この問題に対処するために,高レベルニューロンがより粗い予測(低分解能)を生成し,低レベルニューロンがより細かい予測(高分解能)を生成するマルチスケールアプローチ(細粒度)を採用している。
ネットワークアーキテクチャに関しては,LSTMモジュールにエンコーダ・デコーダネットワークを直接組み込んで,複数のネットワークレベルにまたがる最終的なエンコーダ・ハイレベルセマンティック情報を共有する。
これにより、従来のEncoder-LSTM-Decoderアーキテクチャと比較して、現在の入力とLSTMの履歴状態との包括的な相互作用が可能となり、時間的および空間的依存関係の信頼性が向上する。
さらに, 対向訓練における不安定性に取り組み, 長期予測における予測誤差の蓄積を緩和するために, 訓練戦略のいくつかの改善を提案する。
提案手法は,KTH,Moving MNIST,Caltech Pedestrianなどのデータセット上での優れたパフォーマンスを実現する。
コードはhttps://github.com/Ling-CF/MSPNで入手できる。
関連論文リスト
- Dynamic Semantic Compression for CNN Inference in Multi-access Edge
Computing: A Graph Reinforcement Learning-based Autoencoder [82.8833476520429]
部分オフロードにおける効果的な意味抽出と圧縮のための新しい意味圧縮手法であるオートエンコーダベースのCNNアーキテクチャ(AECNN)を提案する。
セマンティックエンコーダでは、CNNのチャネルアテンション機構に基づく特徴圧縮モジュールを導入し、最も情報性の高い特徴を選択して中間データを圧縮する。
セマンティックデコーダでは、受信した圧縮データから学習して中間データを再構築し、精度を向上させる軽量デコーダを設計する。
論文 参考訳(メタデータ) (2024-01-19T15:19:47Z) - Dynamic Encoding and Decoding of Information for Split Learning in
Mobile-Edge Computing: Leveraging Information Bottleneck Theory [1.1151919978983582]
Split Learning(スプリットラーニング)は、MLモデルを2つの部分(エンコーダとデコーダ)に分割する、プライバシ保護の分散学習パラダイムである。
モバイルエッジコンピューティングでは、エンコーダがユーザ機器(UE)に、デコーダがエッジネットワークに、分割学習によってネットワーク機能を訓練することができる。
本稿では,送信リソース消費の動的バランスと,共有潜在表現の情報化を両立させるためのフレームワークとトレーニング機構を提案する。
論文 参考訳(メタデータ) (2023-09-06T07:04:37Z) - Set-based Neural Network Encoding Without Weight Tying [91.37161634310819]
本稿では,ネットワーク特性予測のためのニューラルネットワーク重み符号化手法を提案する。
我々のアプローチは、混合アーキテクチャのモデル動物園でニューラルネットワークを符号化することができる。
ニューラルネットワークのプロパティ予測には,クロスデータセットとクロスアーキテクチャという,2つの新しいタスクを導入する。
論文 参考訳(メタデータ) (2023-05-26T04:34:28Z) - Pyramidal Predictive Network: A Model for Visual-frame Prediction Based
on Predictive Coding Theory [1.4610038284393165]
本稿では,視覚的フレーム予測のためのニューラルネットワークモデルを提案する。
このモデルは、トップダウンストリームとボトムアップストリームを形成する一連の繰り返しおよび畳み込みユニットで構成されている。
ネットワークの各レイヤにConvLSTMを配置し、トップからダウンまでの局所的な予測を行う。
論文 参考訳(メタデータ) (2022-08-15T06:28:34Z) - On the Prediction Network Architecture in RNN-T for ASR [1.7262456746016954]
一般的なコンフォーマーエンコーダをベースとした4種類の予測ネットワークを比較した。
スコアボードにインスパイアされた新しい単純な予測ネットワークアーキテクチャであるN-Concatを提案する。
論文 参考訳(メタデータ) (2022-06-29T13:11:46Z) - Learning Cross-Scale Prediction for Efficient Neural Video Compression [30.051859347293856]
低レイテンシモードのUVGデータセット上のsRGB PSNRの観点から、最新のコーディング標準であるH.266/VVCと競合する最初のニューラルビデオを示す。
そこで我々は,より効率的な動き補償を実現する,新しいクロススケール予測モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-26T03:12:17Z) - Evaluation of deep learning models for multi-step ahead time series
prediction [1.3764085113103222]
本研究では,マルチステップ先行時系列予測のための深層学習モデルの性能を比較検討する。
当社のディープラーニングメソッドは、単純なリカレントニューラルネットワーク、長期メモリ(LSTM)ネットワーク、双方向LSTM、エンコーダデコーダLSTMネットワーク、および畳み込みニューラルネットワークを妥協します。
論文 参考訳(メタデータ) (2021-03-26T04:07:11Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z) - Dynamic Hierarchical Mimicking Towards Consistent Optimization
Objectives [73.15276998621582]
一般化能力を高めたCNN訓練を推進するための汎用的特徴学習機構を提案する。
DSNに部分的にインスパイアされた私たちは、ニューラルネットワークの中間層から微妙に設計されたサイドブランチをフォークしました。
カテゴリ認識タスクとインスタンス認識タスクの両方の実験により,提案手法の大幅な改善が示された。
論文 参考訳(メタデータ) (2020-03-24T09:56:13Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。