論文の概要: Maximizing Spatio-Temporal Entropy of Deep 3D CNNs for Efficient Video
Recognition
- arxiv url: http://arxiv.org/abs/2303.02693v1
- Date: Sun, 5 Mar 2023 15:11:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 18:15:36.008719
- Title: Maximizing Spatio-Temporal Entropy of Deep 3D CNNs for Efficient Video
Recognition
- Title(参考訳): 映像認識のための深部3次元CNNの時空間エントロピーの最大化
- Authors: Junyan Wang, Zhenhong Sun, Yichen Qian, Dong Gong, Xiuyu Sun, Ming
Lin, Maurice Pagnucco, Yang Song
- Abstract要約: 3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識において一般的な選択肢である。
我々は,新しい学習自由なニューラルアーキテクチャ探索手法を用いて,効率的な3次元CNNアーキテクチャを自動設計することを提案する。
Something-Something V1&V2 と Kinetics400 の実験は、E3D ファミリーが最先端のパフォーマンスを達成することを示した。
- 参考スコア(独自算出の注目度): 25.364148451584356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D convolution neural networks (CNNs) have been the prevailing option for
video recognition. To capture the temporal information, 3D convolutions are
computed along the sequences, leading to cubically growing and expensive
computations. To reduce the computational cost, previous methods resort to
manually designed 3D/2D CNN structures with approximations or automatic search,
which sacrifice the modeling ability or make training time-consuming. In this
work, we propose to automatically design efficient 3D CNN architectures via a
novel training-free neural architecture search approach tailored for 3D CNNs
considering the model complexity. To measure the expressiveness of 3D CNNs
efficiently, we formulate a 3D CNN as an information system and derive an
analytic entropy score, based on the Maximum Entropy Principle. Specifically,
we propose a spatio-temporal entropy score (STEntr-Score) with a refinement
factor to handle the discrepancy of visual information in spatial and temporal
dimensions, through dynamically leveraging the correlation between the feature
map size and kernel size depth-wisely. Highly efficient and expressive 3D CNN
architectures, \ie entropy-based 3D CNNs (E3D family), can then be efficiently
searched by maximizing the STEntr-Score under a given computational budget, via
an evolutionary algorithm without training the network parameters. Extensive
experiments on Something-Something V1\&V2 and Kinetics400 demonstrate that the
E3D family achieves state-of-the-art performance with higher computational
efficiency. Code is available at
https://github.com/alibaba/lightweight-neural-architecture-search.
- Abstract(参考訳): 3D畳み込みニューラルネットワーク(CNN)がビデオ認識の主流となっている。
時間的情報を取得するために、シーケンスに沿って3D畳み込みが計算され、立方的に成長し、高価な計算に繋がる。
計算コストを削減するために、従来の手法では、近似や自動探索による3d/2d cnn構造を手作業で設計している。
本研究では,モデル複雑性を考慮した3次元CNNに適した学習自由ニューラルネットワーク探索手法により,効率的な3次元CNNアーキテクチャを自動設計することを提案する。
3次元CNNの表現性を効率的に測定するために,情報システムとして3次元CNNを定式化し,最大エントロピー原理に基づく分析エントロピースコアを導出する。
具体的には,空間的および時間的次元における視覚情報の相違を,特徴マップサイズとカーネルサイズとの相関を動的に活用し,精細化係数を持つ時空間エントロピースコア(STEntr-Score)を提案する。
高効率で表現力のある3D CNNアーキテクチャである、イーエントロピーベースの3D CNN(E3D family)は、ネットワークパラメータを訓練することなく進化的アルゴリズムを用いて、所定の計算予算の下でSTEntr-Scoreを最大化することで効率的に探索することができる。
Something-Something V1\&V2 と Kinetics400 の大規模な実験は、E3D ファミリーが高い計算効率で最先端の性能を達成することを示した。
コードはhttps://github.com/alibaba/lightweight-neural-architecture-searchで入手できる。
関連論文リスト
- Intelligent 3D Network Protocol for Multimedia Data Classification using
Deep Learning [0.0]
我々はSTIPと3D CNNの機能を組み合わせたハイブリッドディープラーニングアーキテクチャを実装し、3Dビデオのパフォーマンスを効果的に向上させる。
その結果,UCF101の動作認識のための文献から得られた最新のフレームワークを95%の精度で比較した。
論文 参考訳(メタデータ) (2022-07-23T12:24:52Z) - Gate-Shift-Fuse for Video Action Recognition [43.8525418821458]
Gate-Fuse (GSF) は、時間内相互作用を制御し、時間を通して特徴を適応的にルーティングし、それらをデータ依存的に組み合わせることを学ぶ、新しい時間的特徴抽出モジュールである。
GSFは既存の2D CNNに挿入して、パラメータや計算オーバーヘッドを無視して、効率的かつ高性能に変換することができる。
2つの人気のある2次元CNNファミリを用いてGSFを広範囲に解析し、5つの標準動作認識ベンチマークで最先端または競合性能を達成する。
論文 参考訳(メタデータ) (2022-03-16T19:19:04Z) - Continual 3D Convolutional Neural Networks for Real-time Processing of
Videos [93.73198973454944]
連続3次元コンテンポラルニューラルネットワーク(Co3D CNN)について紹介する。
Co3D CNNはクリップ・バイ・クリップではなく、フレーム・バイ・フレームで動画を処理する。
本研究では,既存の映像認識モデルの重みを初期化したCo3D CNNを用いて,フレームワイズ計算における浮動小数点演算を10.0-12.4倍削減し,Kinetics-400の精度を2.3-3.8倍に向上したことを示す。
論文 参考訳(メタデータ) (2021-05-31T18:30:52Z) - MoViNets: Mobile Video Networks for Efficient Video Recognition [52.49314494202433]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識では正確だが、大きな計算とメモリ予算を必要とする。
本稿では,3次元CNNのピークメモリ使用量を大幅に削減しつつ,計算効率を向上させる3段階の手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T23:06:38Z) - Hyperspectral Image Classification: Artifacts of Dimension Reduction on
Hybrid CNN [1.2875323263074796]
2Dおよび3DCNNモデルは、ハイパースペクトル画像の空間的およびスペクトル情報を利用するのに非常に効率的であることが証明されている。
この研究は、計算コストを大幅に削減する軽量CNN(3Dと2D-CNN)モデルを提案した。
論文 参考訳(メタデータ) (2021-01-25T18:43:57Z) - 3D CNNs with Adaptive Temporal Feature Resolutions [83.43776851586351]
similarity Guided Sampling (SGS)モジュールは既存のCNNアーキテクチャにプラグインできる。
SGSは、時間的特徴の類似性を学び、類似した特徴をまとめることで、3D CNNに権限を与える。
評価の結果,提案モジュールは精度を保ちながら計算コスト(GFLOP)を半分に減らし,最先端化を実現していることがわかった。
論文 参考訳(メタデータ) (2020-11-17T14:34:05Z) - RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks
on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。
3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文 参考訳(メタデータ) (2020-07-20T02:05:32Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z) - Learning Local Neighboring Structure for Robust 3D Shape Representation [143.15904669246697]
3Dメッシュの表現学習は多くのコンピュータビジョンやグラフィックスアプリケーションにおいて重要である。
局所構造認識型異方性畳み込み操作(LSA-Conv)を提案する。
本モデルでは,3次元形状復元において最先端の手法に比べて顕著な改善が得られた。
論文 参考訳(メタデータ) (2020-04-21T13:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。