論文の概要: When CNNs Meet Random RNNs: Towards Multi-Level Analysis for RGB-D
Object and Scene Recognition
- arxiv url: http://arxiv.org/abs/2004.12349v2
- Date: Tue, 11 Jan 2022 07:41:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 13:35:55.199098
- Title: When CNNs Meet Random RNNs: Towards Multi-Level Analysis for RGB-D
Object and Scene Recognition
- Title(参考訳): ランダムRNNとCNN:RGB-Dオブジェクトのマルチレベル解析とシーン認識を目指して
- Authors: Ali Caglayan and Nevrez Imamoglu and Ahmet Burak Can and Ryosuke
Nakamura
- Abstract要約: オブジェクトおよびシーン認識タスクのための多モードRGB-D画像から識別的特徴表現を抽出する新しいフレームワークを提案する。
CNNアクティベーションの高次元性に対応するため、ランダムな重み付けプール方式が提案されている。
実験では、RNNステージにおける完全ランダム化構造がCNNアクティベーションを符号化し、識別的ソリッドな特徴を成功させることを確認した。
- 参考スコア(独自算出の注目度): 10.796613905980609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognizing objects and scenes are two challenging but essential tasks in
image understanding. In particular, the use of RGB-D sensors in handling these
tasks has emerged as an important area of focus for better visual
understanding. Meanwhile, deep neural networks, specifically convolutional
neural networks (CNNs), have become widespread and have been applied to many
visual tasks by replacing hand-crafted features with effective deep features.
However, it is an open problem how to exploit deep features from a multi-layer
CNN model effectively. In this paper, we propose a novel two-stage framework
that extracts discriminative feature representations from multi-modal RGB-D
images for object and scene recognition tasks. In the first stage, a pretrained
CNN model has been employed as a backbone to extract visual features at
multiple levels. The second stage maps these features into high level
representations with a fully randomized structure of recursive neural networks
(RNNs) efficiently. To cope with the high dimensionality of CNN activations, a
random weighted pooling scheme has been proposed by extending the idea of
randomness in RNNs. Multi-modal fusion has been performed through a soft voting
approach by computing weights based on individual recognition confidences (i.e.
SVM scores) of RGB and depth streams separately. This produces consistent class
label estimation in final RGB-D classification performance. Extensive
experiments verify that fully randomized structure in RNN stage encodes CNN
activations to discriminative solid features successfully. Comparative
experimental results on the popular Washington RGB-D Object and SUN RGB-D Scene
datasets show that the proposed approach achieves superior or on-par
performance compared to state-of-the-art methods both in object and scene
recognition tasks. Code is available at
https://github.com/acaglayan/CNN_randRNN.
- Abstract(参考訳): オブジェクトとシーンを認識することは、イメージ理解において困難な2つの重要なタスクである。
特に、これらのタスクの処理におけるrgb-dセンサーの使用は、視覚理解を改善するための重要な焦点となっている。
一方、ニューラルネットワーク、特に畳み込みニューラルネットワーク(cnns)は広く普及し、手作りの機能を効果的なディープ機能に置き換えることで、多くの視覚タスクに応用されている。
しかし、多層CNNモデルの深い特徴を効果的に活用する方法は、オープンな問題である。
本稿では,オブジェクトおよびシーン認識タスクのための多モードRGB-D画像から識別的特徴表現を抽出する新しい2段階フレームワークを提案する。
第1段階では、事前訓練されたcnnモデルがバックボーンとして採用され、複数のレベルで視覚的な特徴を抽出する。
第2段階は、これらの特徴を再帰的ニューラルネットワーク(rnn)の完全ランダム構造を持つ高レベル表現にマップする。
CNNアクティベーションの高次元性に対応するため、RNNにおけるランダム性の概念を拡張したランダム重み付けプール方式が提案されている。
マルチモーダル融合は、RGBと深度ストリームの個人認識信頼度(すなわちSVMスコア)に基づいて重みを計算し、ソフト投票方式によって実現されている。
これにより、最終RGB-D分類性能において一貫したクラスラベル推定が得られる。
広範囲な実験により、rnnステージの完全ランダム化構造がcnnの活性化を識別的固体機能にうまくエンコードしていることが確かめられた。
人気の高いWashington RGB-D ObjectとSUN RGB-D Sceneデータセットの比較実験結果から,提案手法はオブジェクト認識タスクとシーン認識タスクの両方における最先端の手法と比較して,優れた性能,即時性能を実現していることが示された。
コードはhttps://github.com/acaglayan/cnn_randrnnで入手できる。
関連論文リスト
- Kronecker Product Feature Fusion for Convolutional Neural Network in
Remote Sensing Scene Classification [0.0]
CNNはリモートセンシング画像から階層的畳み込み特徴を抽出できる。
AddとConcatという2つのFeature Fusionメソッドは、ある種の最先端CNNアルゴリズムで採用されている。
Kronecker Product (KPFF) を用いた上記の手法を統一した新しいFeature Fusionアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-08T19:01:01Z) - Point-aware Interaction and CNN-induced Refinement Network for RGB-D
Salient Object Detection [95.84616822805664]
我々は,CNNによるトランスフォーマーアーキテクチャを導入し,ポイント・アウェア・インタラクションとCNNによるリファインメントを備えた新しいRGB-D SODネットワークを提案する。
トランスフォーマーがもたらすブロック効果とディテール破壊問題を自然に軽減するために,コンテンツリファインメントとサプリメントのためのCNNRユニットを設計する。
論文 参考訳(メタデータ) (2023-08-17T11:57:49Z) - Neural Implicit Dictionary via Mixture-of-Expert Training [111.08941206369508]
ニューラルインシシット辞書(NID)を学習することで、データとトレーニング効率の両方を達成する汎用INRフレームワークを提案する。
我々のNIDは、所望の関数空間にまたがるように調整された座標ベースのImpworksのグループを組み立てる。
実験の結果,NIDは最大98%の入力データで2次元画像や3次元シーンの再現を2桁高速化できることがわかった。
論文 参考訳(メタデータ) (2022-07-08T05:07:19Z) - Depth-Adapted CNNs for RGB-D Semantic Segmentation [2.341385717236931]
我々は、RGB畳み込みニューラルネットワーク(CNN)に深度情報を組み込む新しい枠組みを提案する。
具体的には、Z-ACNは2次元奥行き適応オフセットを生成し、RGB画像の特徴抽出を誘導する低レベル特徴に完全に制約される。
生成されたオフセットでは、基本的なCNN演算子を置き換えるために、2つの直感的で効果的な操作を導入する。
論文 参考訳(メタデータ) (2022-06-08T14:59:40Z) - A Novel Hand Gesture Detection and Recognition system based on
ensemble-based Convolutional Neural Network [3.5665681694253903]
コンピュータビジョンとパターン認識コミュニティでは,手の部分検出が課題となっている。
畳み込みニューラルネットワーク(CNN)アーキテクチャのようなディープラーニングアルゴリズムは、分類タスクにおいて非常に一般的な選択肢となっている。
本稿では,CNNに基づくアプローチのアンサンブルを用いて,予測時の高分散や過度な問題,予測誤差などの問題を克服する。
論文 参考訳(メタデータ) (2022-02-25T06:46:58Z) - RGB-D SLAM Using Attention Guided Frame Association [11.484398586420067]
RGB-D屋内SLAMにおけるタスク特化ネットワークアテンションの利用を提案する。
我々は,CNN層表現とレイヤワイドオブジェクトアテンション情報(層勾配)を統合し,フレームアソシエーション性能を向上させる。
実験では、パフォーマンスを改善した有望な初期結果が示されている。
論文 参考訳(メタデータ) (2022-01-28T11:23:29Z) - Hybrid SNN-ANN: Energy-Efficient Classification and Object Detection for
Event-Based Vision [64.71260357476602]
イベントベースの視覚センサは、画像フレームではなく、イベントストリームの局所的な画素単位の明るさ変化を符号化する。
イベントベースセンサーによる物体認識の最近の進歩は、ディープニューラルネットワークの変換によるものである。
本稿では、イベントベースのパターン認識とオブジェクト検出のためのディープニューラルネットワークのエンドツーエンドトレーニングのためのハイブリッドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-06T23:45:58Z) - New SAR target recognition based on YOLO and very deep multi-canonical
correlation analysis [0.1503974529275767]
本稿では,異なるCNN層から有効な特徴を適応的に融合させることにより,SAR画像ターゲット分類のためのロバストな特徴抽出手法を提案する。
MSTARデータセットの実験により,提案手法が最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-10-28T18:10:26Z) - HAT: Hierarchical Aggregation Transformers for Person Re-identification [87.02828084991062]
我々は,CNNとトランスフォーマーの両方の利点を,高性能な画像ベース人物Re-IDに適用する。
作業は、画像ベースのRe-IDのためのCNNとTransformerの両方の利点を初めて活用する。
論文 参考訳(メタデータ) (2021-07-13T09:34:54Z) - The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。
本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文 参考訳(メタデータ) (2021-01-29T07:46:39Z) - PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection [76.30585706811993]
我々はPointVoxel-RCNN(PV-RCNN)という新しい高性能な3Dオブジェクト検出フレームワークを提案する。
提案手法は3次元ボクセル畳み込みニューラルネットワーク(CNN)とPointNetベースの集合抽象化の両方を深く統合する。
3DボクセルCNNの効率的な学習と高品質な提案と、PointNetベースのネットワークのフレキシブル・レセプティブ・フィールドを利用する。
論文 参考訳(メタデータ) (2019-12-31T06:34:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。