論文の概要: PreCNet: Next Frame Video Prediction Based on Predictive Coding
- arxiv url: http://arxiv.org/abs/2004.14878v2
- Date: Fri, 11 Dec 2020 13:58:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 02:46:42.086132
- Title: PreCNet: Next Frame Video Prediction Based on Predictive Coding
- Title(参考訳): PreCNet:予測符号化に基づく次のフレームビデオ予測
- Authors: Zdenek Straka, Tomas Svoboda, Matej Hoffmann
- Abstract要約: 我々はRaoとBallardのモデル(1999年)を現代のディープラーニングフレームワークに変換する。
提案するネットワーク(PreCNet)は、広く使われている次のフレームビデオ予測ベンチマークでテストされる。
- 参考スコア(独自算出の注目度): 2.41710192205034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predictive coding, currently a highly influential theory in neuroscience, has
not been widely adopted in machine learning yet. In this work, we transform the
seminal model of Rao and Ballard (1999) into a modern deep learning framework
while remaining maximally faithful to the original schema. The resulting
network we propose (PreCNet) is tested on a widely used next frame video
prediction benchmark, which consists of images from an urban environment
recorded from a car-mounted camera. On this benchmark (training: 41k images
from KITTI dataset; testing: Caltech Pedestrian dataset), we achieve to our
knowledge the best performance to date when measured with the Structural
Similarity Index (SSIM). Performance on all measures was further improved when
a larger training set (2M images from BDD100k), pointing to the limitations of
the KITTI training set. This work demonstrates that an architecture carefully
based in a neuroscience model, without being explicitly tailored to the task at
hand, can exhibit unprecedented performance.
- Abstract(参考訳): 現在、神経科学において非常に影響力のある理論である予測符号化は、機械学習にはまだ広く採用されていない。
本研究では,Rao と Ballard (1999) のセミナルモデルを,元のスキーマに忠実なままながら,現代的なディープラーニングフレームワークに変換する。
提案するネットワーク(precnet)は,車載カメラから撮影された都市環境からの映像から構成した,広範に使用されるnext frame video predictionベンチマークを用いてテストを行った。
このベンチマーク(トレーニング:kittiデータセットからの41kイメージ;テスト:caltech pedestrianデータセット)では、構造的類似性指標(ssim)で測定した場合、これまでで最高のパフォーマンスを達成できます。
KITTIトレーニングセットの制限を指摘して,トレーニングセットを大きくした(BDD100kから2Mイメージ)ことで,すべての指標のパフォーマンスがさらに向上した。
この研究は、神経科学モデルに基づくアーキテクチャが、手作業に合わせて明示的に調整されることなく、前例のない性能を示すことを示した。
関連論文リスト
- Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - A Light-weight Deep Learning Model for Remote Sensing Image
Classification [70.66164876551674]
リモートセンシング画像分類(RSIC)のための高性能で軽量なディープラーニングモデルを提案する。
NWPU-RESISC45ベンチマークで広範な実験を行うことで、提案した教師学生モデルは最先端システムより優れている。
論文 参考訳(メタデータ) (2023-02-25T09:02:01Z) - ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders [104.05133094625137]
完全畳み込み型マスク付きオートエンコーダフレームワークと,新たなグローバル応答正規化層を提案する。
この自己教師付き学習技術とアーキテクチャ改善の共設計により、純粋なConvNetの性能を大幅に向上させるConvNeXt V2と呼ばれる新しいモデルファミリが生まれる。
論文 参考訳(メタデータ) (2023-01-02T18:59:31Z) - CoV-TI-Net: Transferred Initialization with Modified End Layer for
COVID-19 Diagnosis [5.546855806629448]
転送学習は比較的新しい学習手法であり、少ない計算で優れた性能を達成するために多くの分野で採用されている。
本研究では,MNISTデータセットにPyTorch事前学習モデル(VGG19_bnとWideResNet -101)を適用した。
提案したモデルはKaggleのノートブックで開発、検証され、計算時間を要さずに99.77%の精度に達した。
論文 参考訳(メタデータ) (2022-09-20T08:52:52Z) - Comparison Analysis of Traditional Machine Learning and Deep Learning
Techniques for Data and Image Classification [62.997667081978825]
本研究の目的は、コンピュータビジョン2次元オブジェクト分類タスクに使用される最も一般的な機械学習およびディープラーニング技術を分析し比較することである。
まず、視覚語モデルと深部畳み込みニューラルネットワーク(DCNN)の理論的背景を示す。
次に、Bag of Visual Wordsモデル、VGG16 CNN Architectureを実装します。
論文 参考訳(メタデータ) (2022-04-11T11:34:43Z) - Corrupted Image Modeling for Self-Supervised Visual Pre-Training [103.99311611776697]
自己教師型視覚前訓練のためのCIM(Corrupted Image Modeling)を提案する。
CIMは、小さなトレーニング可能なBEiTを備えた補助発電機を使用して、人工マスクトークンを使用する代わりに入力イメージを破損させる。
事前トレーニング後、エンハンサーは下流タスク用の高容量ビジュアルエンコーダとして使用できる。
論文 参考訳(メタデータ) (2022-02-07T17:59:04Z) - Are Large-scale Datasets Necessary for Self-Supervised Pre-training? [29.49873710927313]
対象のタスクデータのみを活用する自己指導型事前学習シナリオについて検討する。
本研究は,BEiTなどのデノイングオートエンコーダが,事前学習データの種類やサイズに対してより堅牢であることを示す。
COCOでは、COCOイメージのみを使用して事前トレーニングを行う場合、検出とインスタンスセグメンテーションのパフォーマンスは、同等の設定で教師付きImageNet事前トレーニングを上回る。
論文 参考訳(メタデータ) (2021-12-20T18:41:32Z) - Self-Denoising Neural Networks for Few Shot Learning [66.38505903102373]
既存のニューラルアーキテクチャの複数の段階でノイズを追加すると同時に、この付加ノイズに対して堅牢であるように学習する新しいトレーニングスキームを提案する。
このアーキテクチャは、SDNN(Self-Denoising Neural Network)と呼ばれ、現代の畳み込みニューラルネットワークに容易に適用できます。
論文 参考訳(メタデータ) (2021-10-26T03:28:36Z) - Multi-task pre-training of deep neural networks for digital pathology [8.74883469030132]
私たちはまず、多くのデジタル病理データセットを22の分類タスクと約900kの画像のプールに組み立て、変換しました。
特徴抽出器として使用されるモデルは、ImageNet事前訓練されたモデルよりも大幅に改善されるか、同等のパフォーマンスを提供するかを示す。
論文 参考訳(メタデータ) (2020-05-05T08:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。