論文の概要: Would Mega-scale Datasets Further Enhance Spatiotemporal 3D CNNs?
- arxiv url: http://arxiv.org/abs/2004.04968v1
- Date: Fri, 10 Apr 2020 09:44:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 21:12:49.116948
- Title: Would Mega-scale Datasets Further Enhance Spatiotemporal 3D CNNs?
- Title(参考訳): メガスケールデータセットは時空間CNNをさらに高めるか?
- Authors: Hirokatsu Kataoka, Tenga Wakamiya, Kensho Hara, Yutaka Satoh
- Abstract要約: ディープニューラルネットワークの初期において、ビデオ認識の文脈では、2D CNNは3D CNNよりも優れていた。
最近の研究では、3D CNNが大規模なビデオデータセットでトレーニングされた2D CNNより優れていることが判明した。
- 参考スコア(独自算出の注目度): 18.95620388632382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How can we collect and use a video dataset to further improve spatiotemporal
3D Convolutional Neural Networks (3D CNNs)? In order to positively answer this
open question in video recognition, we have conducted an exploration study
using a couple of large-scale video datasets and 3D CNNs. In the early era of
deep neural networks, 2D CNNs have been better than 3D CNNs in the context of
video recognition. Recent studies revealed that 3D CNNs can outperform 2D CNNs
trained on a large-scale video dataset. However, we heavily rely on
architecture exploration instead of dataset consideration. Therefore, in the
present paper, we conduct exploration study in order to improve spatiotemporal
3D CNNs as follows: (i) Recently proposed large-scale video datasets help
improve spatiotemporal 3D CNNs in terms of video classification accuracy. We
reveal that a carefully annotated dataset (e.g., Kinetics-700) effectively
pre-trains a video representation for a video classification task. (ii) We
confirm the relationships between #category/#instance and video classification
accuracy. The results show that #category should initially be fixed, and then
#instance is increased on a video dataset in case of dataset construction.
(iii) In order to practically extend a video dataset, we simply concatenate
publicly available datasets, such as Kinetics-700 and Moments in Time (MiT)
datasets. Compared with Kinetics-700 pre-training, we further enhance
spatiotemporal 3D CNNs with the merged dataset, e.g., +0.9, +3.4, and +1.1 on
UCF-101, HMDB-51, and ActivityNet datasets, respectively, in terms of
fine-tuning. (iv) In terms of recognition architecture, the Kinetics-700 and
merged dataset pre-trained models increase the recognition performance to 200
layers with the Residual Network (ResNet), while the Kinetics-400 pre-trained
model cannot successfully optimize the 200-layer architecture.
- Abstract(参考訳): 時空間3D畳み込みニューラルネットワーク(3D CNN)をさらに改善するために、ビデオデータセットの収集と利用は可能か?
ビデオ認識におけるこのオープンな疑問に積極的に答えるために,大規模ビデオデータセットと3D CNNを用いて探索を行った。
ディープニューラルネットワークの初期において、ビデオ認識の文脈では、2D CNNは3D CNNよりも優れていた。
最近の研究では、3D CNNが大規模なビデオデータセットでトレーニングされた2D CNNより優れていることが判明した。
しかし、私たちはデータセットを考慮せずにアーキテクチャの探索に大きく依存しています。
そこで,本稿では,時空間3次元CNNの改良を目的とした探索研究を行っている。
i)最近提案された大規模ビデオデータセットは,映像分類精度の観点から,時空間CNNの改善に役立つ。
注意深い注釈付きデータセット(例えば、kinetics-700)は、ビデオ分類タスクのためのビデオ表現を効果的に事前学習することを明らかにする。
(ii)#category/#instanceとビデオ分類精度の関係を確認した。
その結果、#categoryは最初は修正されるべきであり、その後、#instanceは、データセットの構築時にビデオデータセット上で増加する。
3) ビデオデータセットを実質的に拡張するためには,Kinetics-700やMoments in Time(MiT)データセットなどの公開データセットを単純に結合する。
Kinetics-700の事前トレーニングと比較すると、微調整の点において、UCF-101、HMDB-51、ActivityNetの3D CNNと+0.9、+3.4、+1.1の統合データセットがさらに強化される。
(iv) 認識アーキテクチャの面では、kinetics-700とmerge dataset pre-trainedモデルにより、残差ネットワーク(resnet)を持つ200層まで認識性能が向上する一方、kinetics-400は200層アーキテクチャの最適化に成功できない。
関連論文リスト
- OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation [70.17681136234202]
設計上の違いを再検討し、スパースCNNが達成できることの限界をテストする。
本稿では,このギャップを埋めるために,適応受容場(親和性)と適応関係という2つの重要な要素を提案する。
この調査により、軽量モジュールを統合するネットワークのファミリーであるOmni-Adaptive 3D CNN(OA-CNN)が開発された。
論文 参考訳(メタデータ) (2024-03-21T14:06:38Z) - AutoSynth: Learning to Generate 3D Training Data for Object Point Cloud
Registration [69.21282992341007]
Auto Synthは、ポイントクラウド登録のための3Dトレーニングデータを自動的に生成する。
私たちはポイントクラウド登録ネットワークをもっと小さなサロゲートネットワークに置き換え、4056.43$のスピードアップを実現しました。
TUD-L,LINEMOD,Occluded-LINEMODに関する我々の研究結果は,検索データセットでトレーニングされたニューラルネットワークが,広く使用されているModelNet40データセットでトレーニングされたニューラルネットワークよりも一貫してパフォーマンスが向上していることを示す。
論文 参考訳(メタデータ) (2023-09-20T09:29:44Z) - Maximizing Spatio-Temporal Entropy of Deep 3D CNNs for Efficient Video
Recognition [25.364148451584356]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識において一般的な選択肢である。
我々は,新しい学習自由なニューラルアーキテクチャ探索手法を用いて,効率的な3次元CNNアーキテクチャを自動設計することを提案する。
Something-Something V1&V2 と Kinetics400 の実験は、E3D ファミリーが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-03-05T15:11:53Z) - Intelligent 3D Network Protocol for Multimedia Data Classification using
Deep Learning [0.0]
我々はSTIPと3D CNNの機能を組み合わせたハイブリッドディープラーニングアーキテクチャを実装し、3Dビデオのパフォーマンスを効果的に向上させる。
その結果,UCF101の動作認識のための文献から得られた最新のフレームワークを95%の精度で比較した。
論文 参考訳(メタデータ) (2022-07-23T12:24:52Z) - Continual 3D Convolutional Neural Networks for Real-time Processing of
Videos [93.73198973454944]
連続3次元コンテンポラルニューラルネットワーク(Co3D CNN)について紹介する。
Co3D CNNはクリップ・バイ・クリップではなく、フレーム・バイ・フレームで動画を処理する。
本研究では,既存の映像認識モデルの重みを初期化したCo3D CNNを用いて,フレームワイズ計算における浮動小数点演算を10.0-12.4倍削減し,Kinetics-400の精度を2.3-3.8倍に向上したことを示す。
論文 参考訳(メタデータ) (2021-05-31T18:30:52Z) - MoViNets: Mobile Video Networks for Efficient Video Recognition [52.49314494202433]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識では正確だが、大きな計算とメモリ予算を必要とする。
本稿では,3次元CNNのピークメモリ使用量を大幅に削減しつつ,計算効率を向上させる3段階の手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T23:06:38Z) - 3D CNNs with Adaptive Temporal Feature Resolutions [83.43776851586351]
similarity Guided Sampling (SGS)モジュールは既存のCNNアーキテクチャにプラグインできる。
SGSは、時間的特徴の類似性を学び、類似した特徴をまとめることで、3D CNNに権限を与える。
評価の結果,提案モジュールは精度を保ちながら計算コスト(GFLOP)を半分に減らし,最先端化を実現していることがわかった。
論文 参考訳(メタデータ) (2020-11-17T14:34:05Z) - RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks
on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。
3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文 参考訳(メタデータ) (2020-07-20T02:05:32Z) - An Information-rich Sampling Technique over Spatio-Temporal CNN for
Classification of Human Actions in Videos [5.414308305392762]
本稿では,3次元畳み込みニューラルネットワーク(3D CNN)を用いたビデオにおける人間の行動認識手法を提案する。
本稿では,3次元CNNアーキテクチャを用いて特徴量抽出を行い,人間の行動を認識するためのLong Short-Term Memory (LSTM) について述べる。
KTHとWEIZMANNの人間の行動データセットを用いて実験を行い、最先端技術と同等の結果が得られることを示した。
論文 参考訳(メタデータ) (2020-02-06T05:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。