論文の概要: Ensembles of Deep Neural Networks for Action Recognition in Still Images
- arxiv url: http://arxiv.org/abs/2003.09893v1
- Date: Sun, 22 Mar 2020 13:44:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 05:42:45.604886
- Title: Ensembles of Deep Neural Networks for Action Recognition in Still Images
- Title(参考訳): 静止画像における行動認識のためのディープニューラルネットワークの集合
- Authors: Sina Mohammadi, Sina Ghofrani Majelan, Shahriar B. Shokouhi
- Abstract要約: 本稿では,大量のラベル付き行動認識データセットの欠如に対処するための伝達学習手法を提案する。
フレームワークには8つのトレーニング済みのCNNも使用して、Stanford 40データセットのパフォーマンスを調査しています。
我々の手法の最良の設定は、スタンフォード40データセットで93.17$%の精度を達成することができる。
- 参考スコア(独自算出の注目度): 3.7900158137749336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the fact that notable improvements have been made recently in the
field of feature extraction and classification, human action recognition is
still challenging, especially in images, in which, unlike videos, there is no
motion. Thus, the methods proposed for recognizing human actions in videos
cannot be applied to still images. A big challenge in action recognition in
still images is the lack of large enough datasets, which is problematic for
training deep Convolutional Neural Networks (CNNs) due to the overfitting
issue. In this paper, by taking advantage of pre-trained CNNs, we employ the
transfer learning technique to tackle the lack of massive labeled action
recognition datasets. Furthermore, since the last layer of the CNN has
class-specific information, we apply an attention mechanism on the output
feature maps of the CNN to extract more discriminative and powerful features
for classification of human actions. Moreover, we use eight different
pre-trained CNNs in our framework and investigate their performance on Stanford
40 dataset. Finally, we propose using the Ensemble Learning technique to
enhance the overall accuracy of action classification by combining the
predictions of multiple models. The best setting of our method is able to
achieve 93.17$\%$ accuracy on the Stanford 40 dataset.
- Abstract(参考訳): 近年、特徴抽出や分類の分野で顕著な改善がなされているにもかかわらず、人間の行動認識は依然として困難であり、特に映像では、動画とは異なり動きがない。
したがって,映像中の人間の動作を認識する手法は静止画像には適用できない。
静止画像におけるアクション認識の大きな課題は、十分なデータセットがないことである。これは、過度に適合する問題のために、深層畳み込みニューラルネットワーク(CNN)のトレーニングに問題がある。
本稿では,事前学習したCNNを活用することで,大量のラベル付き行動認識データセットの欠如に対処するトランスファー学習手法を提案する。
さらに、CNNの最終層にはクラス固有の情報があるので、CNNの出力特徴マップに注意機構を適用し、より差別的で強力な特徴を抽出して人間の行動の分類を行う。
さらに,学習済みの8種類のcnnをフレームワークで使用し,stanford 40データセット上での性能調査を行った。
最後に,複数のモデルの予測を組み合わせることで,行動分類の全体的な精度を高めるために,アンサンブル学習手法を提案する。
我々の手法の最良の設定は、スタンフォード40データセットで93.17$\%の精度を達成することができる。
関連論文リスト
- Training Convolutional Neural Networks with the Forward-Forward
algorithm [1.74440662023704]
Forward Forward (FF)アルゴリズムは、現在まで完全に接続されたネットワークでしか使われていない。
FFパラダイムをCNNに拡張する方法を示す。
我々のFF学習したCNNは、空間的に拡張された新しいラベリング手法を特徴とし、MNISTの手書き桁データセットにおいて99.16%の分類精度を実現している。
論文 参考訳(メタデータ) (2023-12-22T18:56:35Z) - Wild Animal Classifier Using CNN [0.0]
畳み込みニューラルネットワーク(CNN)は、特定の入力を予測するために異なる重みを持つ複数の層を持つ。
画像セグメンテーションは、画像の関心領域の明確な区切りを提供する、そのような広く使われている画像処理手法である。
論文 参考訳(メタデータ) (2022-10-03T13:14:08Z) - Agricultural Plantation Classification using Transfer Learning Approach
based on CNN [0.0]
深層学習により高スペクトル画像認識の効率は著しく向上した。
CNNとMulti-Layer Perceptron(MLP)は画像の分類に優れたプロセスであることが示されている。
本稿では,移動学習の手法を用いて,学習時間を短縮し,ラベル付き大規模データセットへの依存を減らすことを提案する。
論文 参考訳(メタデータ) (2022-06-19T14:43:31Z) - Neural Maximum A Posteriori Estimation on Unpaired Data for Motion
Deblurring [87.97330195531029]
本稿では、ニューラルネットワークをトレーニングし、失明したデータから視覚情報や鋭いコンテンツを復元するためのニューラルネットワークの最大Aポストエリオリ(NeurMAP)推定フレームワークを提案する。
提案されたNeurMAPは、既存のデブロアリングニューラルネットワークに対するアプローチであり、未使用データセット上のイメージデブロアリングネットワークのトレーニングを可能にする最初のフレームワークである。
論文 参考訳(メタデータ) (2022-04-26T08:09:47Z) - Recognizing Actions in Videos from Unseen Viewpoints [80.6338404141284]
本研究では,現在の畳み込みニューラルネットワークモデルでは,トレーニングデータに存在しないカメラ視点からの動作を認識できないことを示す。
視認不能な認識のための新しいデータセットを導入し、視点不変表現を学習するアプローチ能力を示す。
論文 参考訳(メタデータ) (2021-03-30T17:17:54Z) - The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。
本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文 参考訳(メタデータ) (2021-01-29T07:46:39Z) - Convolutional Neural Networks for Multispectral Image Cloud Masking [7.812073412066698]
畳み込みニューラルネットワーク(CNN)は多くの画像分類タスクの最先端技術であることが証明されている。
Proba-Vマルチスペクトル画像のクラウドマスキングにおける異なるCNNアーキテクチャの利用について検討する。
論文 参考訳(メタデータ) (2020-12-09T21:33:20Z) - Learning CNN filters from user-drawn image markers for coconut-tree
image classification [78.42152902652215]
本稿では,CNNの特徴抽出器を訓練するために,最小限のユーザ選択画像を必要とする手法を提案する。
本手法は,クラスを識別する画像領域のユーザ描画マーカーから,各畳み込み層のフィルタを学習する。
バックプロパゲーションに基づく最適化には依存せず、ココナッツツリー空中画像のバイナリ分類にその利点を実証する。
論文 参考訳(メタデータ) (2020-08-08T15:50:23Z) - Adversarially-Trained Deep Nets Transfer Better: Illustration on Image
Classification [53.735029033681435]
トランスファーラーニングは、訓練済みのディープニューラルネットワークを画像認識タスクに新しいドメインに適用するための強力な方法論である。
本研究では,非逆学習モデルよりも逆学習モデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2020-07-11T22:48:42Z) - Curriculum By Smoothing [52.08553521577014]
畳み込みニューラルネットワーク(CNN)は、画像分類、検出、セグメンテーションなどのコンピュータビジョンタスクにおいて顕著な性能を示している。
アンチエイリアスフィルタやローパスフィルタを用いてCNNの機能埋め込みを円滑化するエレガントなカリキュラムベースのスキームを提案する。
トレーニング中に特徴マップ内の情報量が増加するにつれて、ネットワークはデータのより優れた表現を徐々に学習することができる。
論文 参考訳(メタデータ) (2020-03-03T07:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。