論文の概要: Auto-MVCNN: Neural Architecture Search for Multi-view 3D Shape
Recognition
- arxiv url: http://arxiv.org/abs/2012.05493v1
- Date: Thu, 10 Dec 2020 07:40:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-15 06:24:41.665922
- Title: Auto-MVCNN: Neural Architecture Search for Multi-view 3D Shape
Recognition
- Title(参考訳): Auto-MVCNN:マルチビュー3次元形状認識のためのニューラルネットワーク検索
- Authors: Zhaoqun Li, Hongren Wang, Jinxing Li
- Abstract要約: 3Dシェイプ認識では、人間の視点を活かして3Dシェイプを解析し、大きな成果を上げています。
マルチビュー3D形状認識におけるアーキテクチャを最適化するために特に設計された,Auto-MVCNNというニューラルアーキテクチャ検索手法を提案する。
- 参考スコア(独自算出の注目度): 16.13826056628379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In 3D shape recognition, multi-view based methods leverage human's
perspective to analyze 3D shapes and have achieved significant outcomes. Most
existing research works in deep learning adopt handcrafted networks as
backbones due to their high capacity of feature extraction, and also benefit
from ImageNet pretraining. However, whether these network architectures are
suitable for 3D analysis or not remains unclear. In this paper, we propose a
neural architecture search method named Auto-MVCNN which is particularly
designed for optimizing architecture in multi-view 3D shape recognition.
Auto-MVCNN extends gradient-based frameworks to process multi-view images, by
automatically searching the fusion cell to explore intrinsic correlation among
view features. Moreover, we develop an end-to-end scheme to enhance retrieval
performance through the trade-off parameter search. Extensive experimental
results show that the searched architectures significantly outperform manually
designed counterparts in various aspects, and our method achieves
state-of-the-art performance at the same time.
- Abstract(参考訳): 3次元形状認識において、多視点法は人間の視点を利用して3次元形状を解析し、大きな成果を上げている。
ディープラーニングにおける既存の研究の多くは、機能抽出能力の高さから、手作りネットワークをバックボーンとして採用している。
しかし、これらのネットワークアーキテクチャが3D解析に適しているかどうかは不明だ。
本稿では,マルチビュー3次元形状認識におけるアーキテクチャの最適化を目的とした,Auto-MVCNNというニューラルアーキテクチャ探索手法を提案する。
Auto-MVCNNは、統合セルを自動的に検索してビュー特徴間の固有の相関を探索することで、勾配ベースのフレームワークを拡張してマルチビュー画像を処理する。
さらに,トレードオフパラメータ探索による検索性能向上のためのエンドツーエンド手法を開発した。
広範な実験結果から,検索したアーキテクチャは,手作業で設計したアーキテクチャよりも様々な面で著しく優れており,同時に最先端の性能を実現する。
関連論文リスト
- Multi-Objective Neural Architecture Search for In-Memory Computing [0.5892638927736115]
我々は、インメモリコンピューティングアーキテクチャに多様な機械学習(ML)タスクをデプロイする効率を高めるために、ニューラルネットワークサーチ(NAS)を採用している。
IMCアーキテクチャ展開のためのNASアプローチの評価は、3つの異なる画像分類データセットにまたがる。
論文 参考訳(メタデータ) (2024-06-10T19:17:09Z) - Deep Models for Multi-View 3D Object Recognition: A Review [16.500711021549947]
これまで,オブジェクト認識のための多視点3D表現は,最先端性能を実現する上で最も有望な結果であった。
本稿では,3次元分類・検索タスクにおける多視点オブジェクト認識手法の最近の進歩を包括的に紹介する。
論文 参考訳(メタデータ) (2024-04-23T16:54:31Z) - SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and
Quasi-Planar Segmentation [53.83313235792596]
本稿では,RGB-Dシーケンスからのリアルタイム意味マッピングのための新しい手法を提案する。
2DニューラルネットワークとSLAMシステムに基づく3Dネットワークと3D占有マッピングを組み合わせる。
本システムは,2D-3Dネットワークベースシステムにおいて,最先端のセマンティックマッピング品質を実現する。
論文 参考訳(メタデータ) (2023-06-28T22:36:44Z) - HKNAS: Classification of Hyperspectral Imagery Based on Hyper Kernel
Neural Architecture Search [104.45426861115972]
設計したハイパーカーネルを利用して,構造パラメータを直接生成することを提案する。
我々は1次元または3次元の畳み込みを伴う画素レベルの分類と画像レベルの分類を別々に行う3種類のネットワークを得る。
6つの公開データセットに関する一連の実験は、提案手法が最先端の結果を得ることを示した。
論文 参考訳(メタデータ) (2023-04-23T17:27:40Z) - MVTN: Learning Multi-View Transformations for 3D Understanding [60.15214023270087]
本稿では,3次元形状認識のための最適視点を決定するために,可変レンダリングを用いたマルチビュー変換ネットワーク(MVTN)を提案する。
MVTNは3次元形状認識のためのマルチビューネットワークでエンドツーエンドに訓練することができる。
提案手法は,複数のベンチマークによる3次元分類と形状検索における最先端性能を示す。
論文 参考訳(メタデータ) (2022-12-27T12:09:16Z) - Improving 3D Object Detection with Channel-wise Transformer [58.668922561622466]
我々は手作りの最小限の設計で2段階の3Dオブジェクト検出フレームワーク(CT3D)を提案する。
CT3Dは、提案対応の埋め込みとチャンネルワイドコンテキストアグリゲーションを同時に行う。
これはKITTIテスト3D検出ベンチマークで中等車カテゴリーで81.77%のAPを達成した。
論文 参考訳(メタデータ) (2021-08-23T02:03:40Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Graph Stacked Hourglass Networks for 3D Human Pose Estimation [1.0660480034605242]
2次元から3次元のポーズ推定タスクのための新しいグラフ畳み込みネットワークアーキテクチャであるgraph stacked hourglass networkを提案する。
提案アーキテクチャは,人間の骨格表現の3つの異なるスケールでグラフ構造化特徴を処理した繰り返しエンコーダデコーダで構成されている。
論文 参考訳(メタデータ) (2021-03-30T14:25:43Z) - A Multisensory Learning Architecture for Rotation-invariant Object
Recognition [0.0]
本研究では,iCubロボットを用いて構築した新しいデータセットを用いて,物体認識のための多感覚機械学習アーキテクチャを提案する。
提案アーキテクチャでは、畳み込みニューラルネットワークを用いて、グレースケールカラー画像の表現(すなわち特徴)と深度データを処理するための多層パーセプトロンアルゴリズムを組み合わせる。
論文 参考訳(メタデータ) (2020-09-14T09:39:48Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。