論文の概要: Predictive Coding Based Multiscale Network with Encoder-Decoder LSTM for
Video Prediction
- arxiv url: http://arxiv.org/abs/2212.11642v1
- Date: Thu, 22 Dec 2022 12:15:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 13:50:54.724976
- Title: Predictive Coding Based Multiscale Network with Encoder-Decoder LSTM for
Video Prediction
- Title(参考訳): ビデオ予測のためのエンコーダデコーダLSTMを用いた予測符号化に基づくマルチスケールネットワーク
- Authors: Chaofan Ling, Junpei Zhong and Weihua Li
- Abstract要約: 本稿では,「予測符号化」理論と「粗大化」アプローチに着想を得た,映像予測のためのマルチスケール予測モデルを提案する。
予測符号化モデルとして、ボトムアップとトップダウンの情報フローの組み合わせによって更新される。
より高レベルのニューロンは粗い予測を生成し、低レベルのニューロンはより微細な予測を生成する。
- 参考スコア(独自算出の注目度): 1.4610038284393165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We are introducing a multi-scale predictive model for video prediction here,
whose design is inspired by the "Predictive Coding" theories and "Coarse to
Fine" approach. As a predictive coding model, it is updated by a combination of
bottom-up and top-down information flows, which is different from traditional
bottom-up training style. Its advantage is to reduce the dependence on input
information and improve its ability to predict and generate images.
Importantly, we achieve with a multi-scale approach -- higher level neurons
generate coarser predictions (lower resolution), while the lower level generate
finer predictions (higher resolution). This is different from the traditional
predictive coding framework in which higher level predict the activity of
neurons in lower level. To improve the predictive ability, we integrate an
encoder-decoder network in the LSTM architecture and share the final encoded
high-level semantic information between different levels. Additionally, since
the output of each network level is an RGB image, a smaller LSTM hidden state
can be used to retain and update the only necessary hidden information,
avoiding being mapped to an overly discrete and complex space. In this way, we
can reduce the difficulty of prediction and the computational overhead.
Finally, we further explore the training strategies, to address the instability
in adversarial training and mismatch between training and testing in long-term
prediction. Code is available at https://github.com/Ling-CF/MSPN.
- Abstract(参考訳): 我々は,ビデオ予測のためのマルチスケール予測モデルを提案する。その設計は"予測符号化"理論と"微妙な"アプローチに触発されたものである。
予測符号化モデルとして、ボトムアップとトップダウンの情報フローの組み合わせによって更新され、従来のボトムアップトレーニングスタイルとは異なる。
その利点は、入力情報への依存を減らし、画像の予測と生成能力を改善することである。
重要なのは、高レベルのニューロンが粗い予測(低解像度)を生成し、低レベルのニューロンがより微細な予測(高解像度)を生成することだ。
これは、上位レベルが下位レベルのニューロンの活動を予測している従来の予測コーディングフレームワークとは異なる。
予測能力を向上させるため、LSTMアーキテクチャにエンコーダ・デコーダネットワークを統合し、各レベル間で最終的なエンコーダ・ハイレベルセマンティック情報を共有する。
さらに、各ネットワークレベルの出力はRGB画像であるため、LSTM隠れ状態を小さくして、必要な隠れ情報のみを保持し、更新することができ、過度に離散的で複雑な空間にマッピングされるのを避けることができる。
このようにして、予測の困難さと計算オーバーヘッドを低減することができる。
最後に, 長期予測における敵対的トレーニングの不安定性と, トレーニングとテストのミスマッチに対処するために, トレーニング戦略をさらに探究する。
コードはhttps://github.com/Ling-CF/MSPNで入手できる。
関連論文リスト
- Dynamic Semantic Compression for CNN Inference in Multi-access Edge
Computing: A Graph Reinforcement Learning-based Autoencoder [82.8833476520429]
部分オフロードにおける効果的な意味抽出と圧縮のための新しい意味圧縮手法であるオートエンコーダベースのCNNアーキテクチャ(AECNN)を提案する。
セマンティックエンコーダでは、CNNのチャネルアテンション機構に基づく特徴圧縮モジュールを導入し、最も情報性の高い特徴を選択して中間データを圧縮する。
セマンティックデコーダでは、受信した圧縮データから学習して中間データを再構築し、精度を向上させる軽量デコーダを設計する。
論文 参考訳(メタデータ) (2024-01-19T15:19:47Z) - Dynamic Encoding and Decoding of Information for Split Learning in
Mobile-Edge Computing: Leveraging Information Bottleneck Theory [1.1151919978983582]
Split Learning(スプリットラーニング)は、MLモデルを2つの部分(エンコーダとデコーダ)に分割する、プライバシ保護の分散学習パラダイムである。
モバイルエッジコンピューティングでは、エンコーダがユーザ機器(UE)に、デコーダがエッジネットワークに、分割学習によってネットワーク機能を訓練することができる。
本稿では,送信リソース消費の動的バランスと,共有潜在表現の情報化を両立させるためのフレームワークとトレーニング機構を提案する。
論文 参考訳(メタデータ) (2023-09-06T07:04:37Z) - Set-based Neural Network Encoding Without Weight Tying [91.37161634310819]
本稿では,ネットワーク特性予測のためのニューラルネットワーク重み符号化手法を提案する。
我々のアプローチは、混合アーキテクチャのモデル動物園でニューラルネットワークを符号化することができる。
ニューラルネットワークのプロパティ予測には,クロスデータセットとクロスアーキテクチャという,2つの新しいタスクを導入する。
論文 参考訳(メタデータ) (2023-05-26T04:34:28Z) - Pyramidal Predictive Network: A Model for Visual-frame Prediction Based
on Predictive Coding Theory [1.4610038284393165]
本稿では,視覚的フレーム予測のためのニューラルネットワークモデルを提案する。
このモデルは、トップダウンストリームとボトムアップストリームを形成する一連の繰り返しおよび畳み込みユニットで構成されている。
ネットワークの各レイヤにConvLSTMを配置し、トップからダウンまでの局所的な予測を行う。
論文 参考訳(メタデータ) (2022-08-15T06:28:34Z) - On the Prediction Network Architecture in RNN-T for ASR [1.7262456746016954]
一般的なコンフォーマーエンコーダをベースとした4種類の予測ネットワークを比較した。
スコアボードにインスパイアされた新しい単純な予測ネットワークアーキテクチャであるN-Concatを提案する。
論文 参考訳(メタデータ) (2022-06-29T13:11:46Z) - Learning Cross-Scale Prediction for Efficient Neural Video Compression [30.051859347293856]
低レイテンシモードのUVGデータセット上のsRGB PSNRの観点から、最新のコーディング標準であるH.266/VVCと競合する最初のニューラルビデオを示す。
そこで我々は,より効率的な動き補償を実現する,新しいクロススケール予測モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-26T03:12:17Z) - Evaluation of deep learning models for multi-step ahead time series
prediction [1.3764085113103222]
本研究では,マルチステップ先行時系列予測のための深層学習モデルの性能を比較検討する。
当社のディープラーニングメソッドは、単純なリカレントニューラルネットワーク、長期メモリ(LSTM)ネットワーク、双方向LSTM、エンコーダデコーダLSTMネットワーク、および畳み込みニューラルネットワークを妥協します。
論文 参考訳(メタデータ) (2021-03-26T04:07:11Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z) - Dynamic Hierarchical Mimicking Towards Consistent Optimization
Objectives [73.15276998621582]
一般化能力を高めたCNN訓練を推進するための汎用的特徴学習機構を提案する。
DSNに部分的にインスパイアされた私たちは、ニューラルネットワークの中間層から微妙に設計されたサイドブランチをフォークしました。
カテゴリ認識タスクとインスタンス認識タスクの両方の実験により,提案手法の大幅な改善が示された。
論文 参考訳(メタデータ) (2020-03-24T09:56:13Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。