論文の概要: 2D-3D Geometric Fusion Network using Multi-Neighbourhood Graph
Convolution for RGB-D Indoor Scene Classification
- arxiv url: http://arxiv.org/abs/2009.11154v3
- Date: Thu, 27 May 2021 10:06:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 15:26:38.750134
- Title: 2D-3D Geometric Fusion Network using Multi-Neighbourhood Graph
Convolution for RGB-D Indoor Scene Classification
- Title(参考訳): RGB-D屋内シーン分類のための多階層グラフ畳み込みを用いた2次元3次元幾何融合ネットワーク
- Authors: Albert Mosella-Montoro, Javier Ruiz-Hidalgo
- Abstract要約: 本稿では,3次元幾何特徴と2次元テクスチャ特徴を組み合わせた2次元3次元フュージョンステージを提案する。
実験の結果、NYU-Depth-V2とSUN RGB-Dデータセットを用いて、RGB-D屋内シーン分類作業において、提案手法が現在の最先端技術よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 0.8629912408966145
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multi-modal fusion has been proved to help enhance the performance of scene
classification tasks. This paper presents a 2D-3D Fusion stage that combines 3D
Geometric Features with 2D Texture Features obtained by 2D Convolutional Neural
Networks. To get a robust 3D Geometric embedding, a network that uses two novel
layers is proposed. The first layer, Multi-Neighbourhood Graph Convolution,
aims to learn a more robust geometric descriptor of the scene combining two
different neighbourhoods: one in the Euclidean space and the other in the
Feature space. The second proposed layer, Nearest Voxel Pooling, improves the
performance of the well-known Voxel Pooling. Experimental results, using
NYU-Depth-V2 and SUN RGB-D datasets, show that the proposed method outperforms
the current state-of-the-art in RGB-D indoor scene classification task.
- Abstract(参考訳): マルチモーダル融合はシーン分類タスクの性能向上に役立つことが証明されている。
本稿では,2次元畳み込みニューラルネットワークにより得られた3次元幾何特徴と2次元テクスチャ特徴を組み合わせた2次元3次元融合ステージを提案する。
堅牢な3次元幾何埋め込みを実現するために,2つの新しい層を用いたネットワークを提案する。
最初のレイヤであるMulti-Neighbourhood Graph Convolutionは、ユークリッド空間とフィーチャー空間の2つの異なる領域を組み合わせた、より堅牢な幾何学的記述子を学ぶことを目的としている。
2番目の提案されたレイヤであるNearest Voxel Poolingは、よく知られたVoxel Poolingのパフォーマンスを改善している。
実験の結果、NYU-Depth-V2とSUN RGB-Dデータセットを用いて、RGB-D屋内シーン分類作業において、提案手法が現在の最先端技術よりも優れていることが示された。
関連論文リスト
- NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized
Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。
我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。
シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文 参考訳(メタデータ) (2023-09-26T02:09:52Z) - GraphCSPN: Geometry-Aware Depth Completion via Dynamic GCNs [49.55919802779889]
本稿では,グラフ畳み込みに基づく空間伝搬ネットワーク(GraphCSPN)を提案する。
本研究では、幾何学的表現学習において、畳み込みニューラルネットワークとグラフニューラルネットワークを相補的に活用する。
提案手法は,数段の伝搬ステップのみを使用する場合と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-19T17:56:03Z) - 3D Dense Face Alignment with Fused Features by Aggregating CNNs and GCNs [28.7443367565456]
これは、標準畳み込みニューラルネットワーク(CNN)とグラフ畳み込みネットワーク(GCN)をシームレスに結合することで達成される。
CNNとGCNの異なる層やステージにまたがる特徴を反復的に融合させることで,我々のアプローチは高密度な顔アライメントと3次元顔再構成を同時に実現することができる。
いくつかの挑戦的なデータセットの実験により、我々の手法は2次元および3次元の顔アライメントタスクにおける最先端のアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-03-09T11:07:10Z) - Laplacian2Mesh: Laplacian-Based Mesh Understanding [4.808061174740482]
我々は3次元トライアングルメッシュのための新しいフレキシブル畳み込みニューラルネットワーク(CNN)モデルであるLaplacian2Meshを紹介した。
メッシュプーリングはラプラシアンの多空間変換によりネットワークの受容場を拡張するために適用される。
3Dメッシュに適用されたさまざまな学習タスクの実験は、Laplacian2Meshの有効性と効率を実証している。
論文 参考訳(メタデータ) (2022-02-01T10:10:13Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z) - Learning Joint 2D-3D Representations for Depth Completion [90.62843376586216]
2Dおよび3Dの関節の特徴を抽出することを学ぶシンプルで効果的なニューラルネットワークブロックを設計します。
具体的には、画像画素に2D畳み込みと3D点に連続畳み込みを施した2つのドメイン固有のサブネットワークから構成される。
論文 参考訳(メタデータ) (2020-12-22T22:58:29Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。