論文の概要: Cloud based Scalable Object Recognition from Video Streams using
Orientation Fusion and Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2106.15329v1
- Date: Sat, 19 Jun 2021 07:15:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-04 19:41:47.172168
- Title: Cloud based Scalable Object Recognition from Video Streams using
Orientation Fusion and Convolutional Neural Networks
- Title(参考訳): 配向融合と畳み込みニューラルネットワークを用いたビデオストリームからのクラウドベーススケーラブル物体認識
- Authors: Muhammad Usman Yaseen, Ashiq Anjum, Giancarlo Fortino, Antonio Liotta,
Amir Hussain
- Abstract要約: 畳み込みニューラルネットワーク(CNN)は、インテリジェントな視覚オブジェクト認識を行うために広く利用されている。
CNNはいまだに深刻な精度低下、特に照明変動データセットに悩まされている。
視覚オブジェクト認識のための方向融合に基づく新しいCNN手法を提案する。
- 参考スコア(独自算出の注目度): 11.44782606621054
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Object recognition from live video streams comes with numerous challenges
such as the variation in illumination conditions and poses. Convolutional
neural networks (CNNs) have been widely used to perform intelligent visual
object recognition. Yet, CNNs still suffer from severe accuracy degradation,
particularly on illumination-variant datasets. To address this problem, we
propose a new CNN method based on orientation fusion for visual object
recognition. The proposed cloud-based video analytics system pioneers the use
of bi-dimensional empirical mode decomposition to split a video frame into
intrinsic mode functions (IMFs). We further propose these IMFs to endure Reisz
transform to produce monogenic object components, which are in turn used for
the training of CNNs. Past works have demonstrated how the object orientation
component may be used to pursue accuracy levels as high as 93\%. Herein we
demonstrate how a feature-fusion strategy of the orientation components leads
to further improving visual recognition accuracy to 97\%. We also assess the
scalability of our method, looking at both the number and the size of the video
streams under scrutiny. We carry out extensive experimentation on the publicly
available Yale dataset, including also a self generated video datasets, finding
significant improvements (both in accuracy and scale), in comparison to
AlexNet, LeNet and SE-ResNeXt, which are the three most commonly used deep
learning models for visual object recognition and classification.
- Abstract(参考訳): ライブビデオストリームからのオブジェクト認識には、照明条件の変化やポーズなど、数多くの課題がある。
畳み込みニューラルネットワーク(CNN)は、インテリジェントな視覚オブジェクト認識を行うために広く利用されている。
しかし、CNNは深刻な精度低下、特に照明変動データセットに悩まされている。
この問題に対処するため,視覚オブジェクト認識のための方向融合に基づく新しいCNN手法を提案する。
提案するクラウドベースのビデオ分析システムは,二次元経験的モード分解を用いて,ビデオフレームを固有モード関数(IMF)に分割する。
さらに、これらのIMFは、CNNのトレーニングに使用されるモノジェニックなオブジェクトコンポーネントを生成するために、Reisz変換に耐えられるよう提案する。
過去の研究で、オブジェクト指向コンポーネントが93\%の精度レベルを追求するためにどのように使われるかが示されている。
本稿では,方向成分の機能融合戦略が視覚認識精度をさらに97\%向上させることを示す。
また,本手法のスケーラビリティを評価し,監視対象の動画ストリームの数とサイズについて検討した。
視覚オブジェクト認識と分類に最も一般的に使用される3つのディープラーニングモデルであるalexnet, lenet, se-resnextと比較して,自己生成したビデオデータセットを含む,公開されているyaleデータセットの広範な実験を行った。
関連論文リスト
- Deformable Convolution Based Road Scene Semantic Segmentation of Fisheye Images in Autonomous Driving [4.720434481945155]
本研究では,近代的変形可能な畳み込みニューラルネットワーク(DCNN)のセマンティックセグメンテーションタスクへの応用について検討する。
実験では,WoodScapeの魚眼画像データセットを10種類の異なるクラスに分割し,複雑な空間関係を捉えるデフォルマブルネットワークの能力を評価する。
変形可能なCNNの統合によるmIoUスコアの大幅な改善は、魚眼画像に存在する幾何歪みを扱う上での有効性を示す。
論文 参考訳(メタデータ) (2024-07-23T17:02:24Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - ConViViT -- A Deep Neural Network Combining Convolutions and Factorized
Self-Attention for Human Activity Recognition [3.6321891270689055]
RGBビデオを用いた行動認識のためのハイブリッドアーキテクチャにおいて,CNNとトランスフォーマーの長所を生かした新しい手法を提案する。
我々のアーキテクチャは, HMDB51, UCF101, ETRI-Activity3Dで90.05 %, 99.6%, 95.09%のSOTA結果を得た。
論文 参考訳(メタデータ) (2023-10-22T21:13:43Z) - Video Action Recognition Collaborative Learning with Dynamics via
PSO-ConvNet Transformer [1.876462046907555]
ビデオにおける学習行動のための新しいPSO-ConvNetモデルを提案する。
UCF-101データセットに対する実験結果から,最大9%の精度向上が得られた。
全体として、我々の動的PSO-ConvNetモデルは、人間の行動認識を改善するための有望な方向を提供する。
論文 参考訳(メタデータ) (2023-02-17T23:39:34Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Recognizing Actions in Videos from Unseen Viewpoints [80.6338404141284]
本研究では,現在の畳み込みニューラルネットワークモデルでは,トレーニングデータに存在しないカメラ視点からの動作を認識できないことを示す。
視認不能な認識のための新しいデータセットを導入し、視点不変表現を学習するアプローチ能力を示す。
論文 参考訳(メタデータ) (2021-03-30T17:17:54Z) - The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。
本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文 参考訳(メタデータ) (2021-01-29T07:46:39Z) - Video-based Facial Expression Recognition using Graph Convolutional
Networks [57.980827038988735]
我々は、ビデオベースの表情認識のための共通のCNN-RNNモデルに、GCN(Graph Convolutional Network)層を導入する。
我々は、CK+、Oulu-CASIA、MMIの3つの広く使われているデータセットと、AFEW8.0の挑戦的なワイルドデータセットについて、本手法の評価を行った。
論文 参考訳(メタデータ) (2020-10-26T07:31:51Z) - When CNNs Meet Random RNNs: Towards Multi-Level Analysis for RGB-D
Object and Scene Recognition [10.796613905980609]
オブジェクトおよびシーン認識タスクのための多モードRGB-D画像から識別的特徴表現を抽出する新しいフレームワークを提案する。
CNNアクティベーションの高次元性に対応するため、ランダムな重み付けプール方式が提案されている。
実験では、RNNステージにおける完全ランダム化構造がCNNアクティベーションを符号化し、識別的ソリッドな特徴を成功させることを確認した。
論文 参考訳(メタデータ) (2020-04-26T10:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。