論文の概要: Fast Deep Predictive Coding Networks for Videos Feature Extraction without Labels
- arxiv url: http://arxiv.org/abs/2409.04945v1
- Date: Sun, 8 Sep 2024 01:53:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 20:00:10.395560
- Title: Fast Deep Predictive Coding Networks for Videos Feature Extraction without Labels
- Title(参考訳): ラベルのない映像特徴抽出のための高速深部予測符号化ネットワーク
- Authors: Wenqian Xue, Chi Ding, Jose Principe,
- Abstract要約: ディープ予測符号化ネットワーク(DPCN)は、双方向情報フローを通じて映像特徴をキャプチャする。
本稿では,特徴クラスタリングの空間性と精度を向上する内部モデル変数を高速に推定するDPCNを提案する。
CIFAR-10、スーパーマリオブラザース、Coil-100などのデータセットで実験を行った結果、そのアプローチが検証された。
- 参考スコア(独自算出の注目度): 2.554431612189437
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Brain-inspired deep predictive coding networks (DPCNs) effectively model and capture video features through a bi-directional information flow, even without labels. They are based on an overcomplete description of video scenes, and one of the bottlenecks has been the lack of effective sparsification techniques to find discriminative and robust dictionaries. FISTA has been the best alternative. This paper proposes a DPCN with a fast inference of internal model variables (states and causes) that achieves high sparsity and accuracy of feature clustering. The proposed unsupervised learning procedure, inspired by adaptive dynamic programming with a majorization-minimization framework, and its convergence are rigorously analyzed. Experiments in the data sets CIFAR-10, Super Mario Bros video game, and Coil-100 validate the approach, which outperforms previous versions of DPCNs on learning rate, sparsity ratio, and feature clustering accuracy. Because of DCPN's solid foundation and explainability, this advance opens the door for general applications in object recognition in video without labels.
- Abstract(参考訳): 脳にインスパイアされたディープ予測符号化ネットワーク(DPCN)は、ラベルなしでも双方向の情報フローを通じて、ビデオ機能を効果的にモデル化し、キャプチャする。
それらはビデオシーンの過剰な記述に基づいており、そのボトルネックの1つは、差別的で堅牢な辞書を見つけるための効果的なスペア化技術が欠如していることである。
FISTAは最良の代替品です。
本稿では,内部モデル変数(状態と原因)を高速に推定したDPCNを提案する。
大規模化最小化フレームワークを用いた適応型動的プログラミングにインスパイアされた教師なし学習手法とその収束を厳密に分析する。
CIFAR-10, Super Mario Bros ゲーム, Coil-100 での実験では,DPCN の以前のバージョンよりも学習率, スパーシティ比, 特徴クラスタリング精度が優れていた。
DCPNのソリッド基盤と説明可能性のため、この進歩はラベルのないビデオにおけるオブジェクト認識の一般的な応用への扉を開く。
関連論文リスト
- XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - AdaBrowse: Adaptive Video Browser for Efficient Continuous Sign Language
Recognition [39.778958624066185]
本稿では,入力されたビデオシーケンスから最も情報性の高いサブシーケンスを動的に選択する新しいモデル(AdaBrowse)を提案する。
AdaBrowseは1.44$times$スループットと2.12$times$より少ないFLOPで同等の精度を実現している。
論文 参考訳(メタデータ) (2023-08-16T12:40:47Z) - Unsupervised Video Anomaly Detection with Diffusion Models Conditioned
on Compact Motion Representations [17.816344808780965]
教師なしビデオ異常検出(VAD)問題とは、ビデオ内の各フレームをラベルにアクセスすることなく正常または異常に分類することである。
提案手法は条件付き拡散モデルを用いて,事前学習したネットワークから入力データを抽出する。
提案手法は,データ駆動しきい値を用いて,異常事象の指標として高い再構成誤差を考慮している。
論文 参考訳(メタデータ) (2023-07-04T07:36:48Z) - Dynamic Perceiver for Efficient Visual Recognition [87.08210214417309]
特徴抽出手順と早期分類タスクを分離する動的知覚器(Dyn-Perceiver)を提案する。
特徴ブランチは画像の特徴を抽出し、分類ブランチは分類タスクに割り当てられた遅延コードを処理する。
早期出口は分類枝に限られており、低レベルの特徴において線形分離性は不要である。
論文 参考訳(メタデータ) (2023-06-20T03:00:22Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition [89.84188594758588]
非定常フレームの応答を抑制するために, NSNet(Non-Sliency Suppression Network)を提案する。
NSNetは最先端の精度効率トレードオフを実現し、最先端の手法よりもはるかに高速な2.44.3xの実用的な推論速度を示す。
論文 参考訳(メタデータ) (2022-07-21T09:41:22Z) - Towards Disentangling Information Paths with Coded ResNeXt [11.884259630414515]
ネットワーク全体の機能の透明性を高めるために,我々は新しいアプローチを採っている。
分類のためのニューラルネットワークアーキテクチャを提案し、各クラスに関連する情報が特定の経路を流れる。
論文 参考訳(メタデータ) (2022-02-10T21:45:49Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Faster Convergence in Deep-Predictive-Coding Networks to Learn Deeper
Representations [12.716429755564821]
DPCN(Deep-Predictive-Coding Network)は、フィードフォワードとフィードバック接続に依存する階層的な生成モデルである。
DPCNの重要な要素は、動的モデルのスパース状態を明らかにする前向きの推論手順である。
我々は,加速近位勾配に基づく実験的および理論的収束性の向上した最適化戦略を提案する。
論文 参考訳(メタデータ) (2021-01-18T02:30:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。