論文の概要: Deep Analysis of CNN-based Spatio-temporal Representations for Action
Recognition
- arxiv url: http://arxiv.org/abs/2010.11757v4
- Date: Mon, 29 Mar 2021 14:33:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 06:58:25.476576
- Title: Deep Analysis of CNN-based Spatio-temporal Representations for Action
Recognition
- Title(参考訳): 行動認識のためのCNNに基づく時空間表現の深部解析
- Authors: Chun-Fu Chen, Rameswar Panda, Kandan Ramakrishnan, Rogerio Feris, John
Cohn, Aude Oliva, Quanfu Fan
- Abstract要約: 近年,映像行動認識のための2次元・3次元畳み込みニューラルネットワーク(CNN)に基づくアプローチが数多く出現している。
2D-CNNと3D-CNNの両方のアクションモデルのための統合フレームワークを開発する。
次に,300以上の行動認識モデルを含む大規模分析への取り組みを行う。
- 参考スコア(独自算出の注目度): 26.006191751270393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, a number of approaches based on 2D or 3D convolutional
neural networks (CNN) have emerged for video action recognition, achieving
state-of-the-art results on several large-scale benchmark datasets. In this
paper, we carry out in-depth comparative analysis to better understand the
differences between these approaches and the progress made by them. To this
end, we develop an unified framework for both 2D-CNN and 3D-CNN action models,
which enables us to remove bells and whistles and provides a common ground for
fair comparison. We then conduct an effort towards a large-scale analysis
involving over 300 action recognition models. Our comprehensive analysis
reveals that a) a significant leap is made in efficiency for action
recognition, but not in accuracy; b) 2D-CNN and 3D-CNN models behave similarly
in terms of spatio-temporal representation abilities and transferability. Our
codes are available at https://github.com/IBM/action-recognition-pytorch.
- Abstract(参考訳): 近年、ビデオアクション認識のための2Dまたは3D畳み込みニューラルネットワーク(CNN)に基づく多くのアプローチが登場し、大規模なベンチマークデータセットで最先端の結果が得られた。
本稿では,これらのアプローチとそれらの進歩の違いをより深く理解するために,詳細な比較分析を行う。
この目的のために、2D-CNNと3D-CNNの両方のアクションモデルの統合フレームワークを開発し、ベルとホイッスルを除去し、公正比較のための共通基盤を提供する。
次に,300以上の行動認識モデルを含む大規模分析への取り組みを行う。
我々の包括的分析はそれを明らかにしている
a) 行動認識の効率において重要な飛躍を行うが,正確性はない。
b)2D-CNNモデルと3D-CNNモデルは時空間表現能力と伝達性の観点からも同様に振る舞う。
私たちのコードはhttps://github.com/ibm/action-recognition-pytorchで利用可能です。
関連論文リスト
- Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Deep Generative Models on 3D Representations: A Survey [81.73385191402419]
生成モデルは、新しいインスタンスを生成することによって観測データの分布を学習することを目的としている。
最近、研究者は焦点を2Dから3Dにシフトし始めた。
3Dデータの表現は、非常に大きな課題をもたらします。
論文 参考訳(メタデータ) (2022-10-27T17:59:50Z) - Intelligent 3D Network Protocol for Multimedia Data Classification using
Deep Learning [0.0]
我々はSTIPと3D CNNの機能を組み合わせたハイブリッドディープラーニングアーキテクチャを実装し、3Dビデオのパフォーマンスを効果的に向上させる。
その結果,UCF101の動作認識のための文献から得られた最新のフレームワークを95%の精度で比較した。
論文 参考訳(メタデータ) (2022-07-23T12:24:52Z) - Large-scale Robustness Analysis of Video Action Recognition Models [10.017292176162302]
我々は6つの最先端動作認識モデルの90種類の摂動に対する堅牢性について検討した。
1) トランスフォーマーベースモデルはCNNベースモデルと比較して一貫して堅牢であり、2) 事前トレーニングはCNNベースモデルよりもトランスフォーマーベースモデルのロバスト性を改善し、3) 研究されたモデルはすべて、SSv2以外のすべてのデータセットに対して時間的摂動に対して堅牢である。
論文 参考訳(メタデータ) (2022-07-04T13:29:34Z) - Comparison Analysis of Traditional Machine Learning and Deep Learning
Techniques for Data and Image Classification [62.997667081978825]
本研究の目的は、コンピュータビジョン2次元オブジェクト分類タスクに使用される最も一般的な機械学習およびディープラーニング技術を分析し比較することである。
まず、視覚語モデルと深部畳み込みニューラルネットワーク(DCNN)の理論的背景を示す。
次に、Bag of Visual Wordsモデル、VGG16 CNN Architectureを実装します。
論文 参考訳(メタデータ) (2022-04-11T11:34:43Z) - LocATe: End-to-end Localization of Actions in 3D with Transformers [91.28982770522329]
LocATeは、3Dシーケンスでアクションを共同でローカライズし認識するエンドツーエンドのアプローチである。
画像やパッチの特徴を入力として考えるトランスフォーマーベースのオブジェクト検出や分類モデルとは異なり、LocATeのトランスフォーマーモデルはシーケンス内のアクション間の長期的な相関をキャプチャすることができる。
BABEL-TAL-20 (BT20) という新しい,挑戦的で,より現実的なベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2022-03-21T03:35:32Z) - Gate-Shift-Fuse for Video Action Recognition [43.8525418821458]
Gate-Fuse (GSF) は、時間内相互作用を制御し、時間を通して特徴を適応的にルーティングし、それらをデータ依存的に組み合わせることを学ぶ、新しい時間的特徴抽出モジュールである。
GSFは既存の2D CNNに挿入して、パラメータや計算オーバーヘッドを無視して、効率的かつ高性能に変換することができる。
2つの人気のある2次元CNNファミリを用いてGSFを広範囲に解析し、5つの標準動作認識ベンチマークで最先端または競合性能を達成する。
論文 参考訳(メタデータ) (2022-03-16T19:19:04Z) - A Novel Hand Gesture Detection and Recognition system based on
ensemble-based Convolutional Neural Network [3.5665681694253903]
コンピュータビジョンとパターン認識コミュニティでは,手の部分検出が課題となっている。
畳み込みニューラルネットワーク(CNN)アーキテクチャのようなディープラーニングアルゴリズムは、分類タスクにおいて非常に一般的な選択肢となっている。
本稿では,CNNに基づくアプローチのアンサンブルを用いて,予測時の高分散や過度な問題,予測誤差などの問題を克服する。
論文 参考訳(メタデータ) (2022-02-25T06:46:58Z) - Temporal Distinct Representation Learning for Action Recognition [139.93983070642412]
2次元畳み込みニューラルネットワーク (2D CNN) はビデオの特徴付けに用いられる。
ビデオの異なるフレームは同じ2D CNNカーネルを共有しており、繰り返し、冗長な情報利用をもたらす可能性がある。
本稿では,異なるフレームからの特徴の識別チャネルを段階的にエキサイティングにするためのシーケンシャルチャネルフィルタリング機構を提案し,繰り返し情報抽出を回避する。
本手法は,ベンチマーク時相推論データセットを用いて評価し,それぞれ2.4%,1.3%の可視性向上を実現している。
論文 参考訳(メタデータ) (2020-07-15T11:30:40Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z) - FADNet: A Fast and Accurate Network for Disparity Estimation [18.05392578461659]
本研究では,FADNetという分散度推定のための効率的かつ高精度なディープネットワークを提案する。
高速な計算を保存するために、2Dベースの効率的な相関層と積み重ねブロックを利用する。
精度を向上させるために、マルチスケールの重みスケジューリングトレーニング技術を活用するために、マルチスケールの予測を含んでいる。
論文 参考訳(メタデータ) (2020-03-24T10:27:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。