論文の概要: A Multisensory Learning Architecture for Rotation-invariant Object
Recognition
- arxiv url: http://arxiv.org/abs/2009.06292v1
- Date: Mon, 14 Sep 2020 09:39:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 12:08:04.063126
- Title: A Multisensory Learning Architecture for Rotation-invariant Object
Recognition
- Title(参考訳): 回転不変物体認識のための多感覚学習アーキテクチャ
- Authors: Murat Kirtay and Guido Schillaci and Verena V. Hafner
- Abstract要約: 本研究では,iCubロボットを用いて構築した新しいデータセットを用いて,物体認識のための多感覚機械学習アーキテクチャを提案する。
提案アーキテクチャでは、畳み込みニューラルネットワークを用いて、グレースケールカラー画像の表現(すなわち特徴)と深度データを処理するための多層パーセプトロンアルゴリズムを組み合わせる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study presents a multisensory machine learning architecture for object
recognition by employing a novel dataset that was constructed with the iCub
robot, which is equipped with three cameras and a depth sensor. The proposed
architecture combines convolutional neural networks to form representations
(i.e., features) for grayscaled color images and a multi-layer perceptron
algorithm to process depth data. To this end, we aimed to learn joint
representations of different modalities (e.g., color and depth) and employ them
for recognizing objects. We evaluate the performance of the proposed
architecture by benchmarking the results obtained with the models trained
separately with the input of different sensors and a state-of-the-art data
fusion technique, namely decision level fusion. The results show that our
architecture improves the recognition accuracy compared with the models that
use inputs from a single modality and decision level multimodal fusion method.
- Abstract(参考訳): 本研究では,3台のカメラと深度センサを備えたiCubロボットを用いて構築した新しいデータセットを用いて,物体認識のための多感覚機械学習アーキテクチャを提案する。
提案アーキテクチャは畳み込みニューラルネットワークとグレースケールカラー画像の表現(つまり特徴)と深度データを処理する多層パーセプトロンアルゴリズムを組み合わせたものである。
この目的のために,異なるモダリティ(色や深さなど)の合同表現を学習し,物体認識に活用することを目的とした。
我々は,異なるセンサの入力と最新のデータ融合技術,すなわち意思決定レベル融合を別々にトレーニングしたモデルを用いて,提案アーキテクチャの性能をベンチマークすることで評価した。
その結果,本アーキテクチャは,単一モードおよび決定レベルのマルチモーダル融合法からの入力を用いたモデルと比較して,認識精度の向上を図っている。
関連論文リスト
- EM-DARTS: Hierarchical Differentiable Architecture Search for Eye Movement Recognition [54.99121380536659]
眼球運動バイオメトリックスは、高い安全性の識別により注目されている。
深層学習(DL)モデルは近年,眼球運動認識に成功している。
DLアーキテクチャはまだ人間の事前知識によって決定されている。
眼球運動認識のためのDLアーキテクチャを自動設計する階層的微分可能なアーキテクチャ探索アルゴリズムEM-DARTSを提案する。
論文 参考訳(メタデータ) (2024-09-22T13:11:08Z) - Multi-Objective Neural Architecture Search for In-Memory Computing [0.5892638927736115]
我々は、インメモリコンピューティングアーキテクチャに多様な機械学習(ML)タスクをデプロイする効率を高めるために、ニューラルネットワークサーチ(NAS)を採用している。
IMCアーキテクチャ展開のためのNASアプローチの評価は、3つの異なる画像分類データセットにまたがる。
論文 参考訳(メタデータ) (2024-06-10T19:17:09Z) - The Impact of Different Backbone Architecture on Autonomous Vehicle
Dataset [120.08736654413637]
バックボーンアーキテクチャによって抽出された特徴の質は、全体的な検出性能に大きな影響を与える可能性がある。
本研究は,KITTI,NuScenes,BDDの3つの自律走行車データセットを評価し,対象検出タスクにおける異なるバックボーンアーキテクチャの性能を比較した。
論文 参考訳(メタデータ) (2023-09-15T17:32:15Z) - Scene Change Detection Using Multiscale Cascade Residual Convolutional
Neural Networks [0.0]
シーン変化検出は、デジタル画像の画素を前景と背景領域に分割する処理問題である。
本研究では,Residual Processing Moduleを統合した畳み込みニューラルネットワークを用いた新しいマルチスケールResidual Processing Moduleを提案する。
2つの異なるデータセットで実施された実験は、提案手法の全体的な有効性をサポートし、それぞれが$boldsymbol0.9622$と$boldsymbol0.9664$ over Change Detection 2014とPetrobrasROUTESデータセットの全体的な有効性を達成する。
論文 参考訳(メタデータ) (2022-12-20T16:48:51Z) - Super-Resolution and Image Re-projection for Iris Recognition [67.42500312968455]
異なるディープラーニングアプローチを用いた畳み込みニューラルネットワーク(CNN)は、解像度の低い画像から現実的なテクスチャときめ細かい詳細を復元しようとする。
本研究は、虹彩認識環境における虹彩超解法(SR)に対するこれらのアプローチの実現可能性について検討する。
その結果,CNNと画像再投影は,認識システムの精度向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2022-10-20T09:46:23Z) - Contrastive Object Detection Using Knowledge Graph Embeddings [72.17159795485915]
一つのホットアプローチで学習したクラス埋め込みの誤差統計と、自然言語処理や知識グラフから意味的に構造化された埋め込みを比較した。
本稿では,キーポイントベースおよびトランスフォーマーベースオブジェクト検出アーキテクチャの知識埋め込み設計を提案する。
論文 参考訳(メタデータ) (2021-12-21T17:10:21Z) - Deep Texture-Aware Features for Camouflaged Object Detection [69.84122372541506]
本稿では, テクスチャ認識モジュールを定式化し, 深層畳み込みニューラルネットワークにおけるテクスチャ認識の特徴を学習する。
我々は,キャモフラージュされた物体検出のためのベンチマークデータセット上で,定性的かつ定量的にネットワークを評価した。
論文 参考訳(メタデータ) (2021-02-05T04:38:32Z) - Auto-MVCNN: Neural Architecture Search for Multi-view 3D Shape
Recognition [16.13826056628379]
3Dシェイプ認識では、人間の視点を活かして3Dシェイプを解析し、大きな成果を上げています。
マルチビュー3D形状認識におけるアーキテクチャを最適化するために特に設計された,Auto-MVCNNというニューラルアーキテクチャ検索手法を提案する。
論文 参考訳(メタデータ) (2020-12-10T07:40:28Z) - Nothing But Geometric Constraints: A Model-Free Method for Articulated
Object Pose Estimation [89.82169646672872]
本稿では,ロボットアームの関節構成を,モデルに先入観を持たずにRGBまたはRGB-D画像のシーケンスから推定する,教師なし視覚ベースシステムを提案する。
我々は,古典幾何学的定式化と深層学習を組み合わせることで,この課題を解決するために,極性多剛体制約を拡張した。
論文 参考訳(メタデータ) (2020-11-30T20:46:48Z) - HDD-Net: Hybrid Detector Descriptor with Mutual Interactive Learning [24.13425816781179]
局所的特徴抽出は、SLAMや3D再構成、ARアプリケーションといった分野の進歩により、現在も活発な研究領域である。
両抽出を個別に処理し,学習過程における相互作用に焦点を当てる手法を提案する。
我々は,カメラのローカライゼーション作業に匹敵せず,HPatchの画像マッチングと3次元再構成品質の観点から,技術状況の改善を示す。
論文 参考訳(メタデータ) (2020-05-12T13:55:04Z) - Contextual Encoder-Decoder Network for Visual Saliency Prediction [42.047816176307066]
本稿では,大規模な画像分類タスクに基づいて事前学習した畳み込みニューラルネットワークに基づくアプローチを提案する。
得られた表現をグローバルなシーン情報と組み合わせて視覚的サリエンシを正確に予測する。
最先端技術と比較して、このネットワークは軽量な画像分類バックボーンに基づいている。
論文 参考訳(メタデータ) (2019-02-18T16:15:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。