論文の概要: Similarity-Aware Fusion Network for 3D Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2107.01579v2
- Date: Tue, 6 Jul 2021 14:34:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-08 10:11:06.901616
- Title: Similarity-Aware Fusion Network for 3D Semantic Segmentation
- Title(参考訳): 3次元セマンティクスセグメンテーションのための類似性アウェア・フュージョンネットワーク
- Authors: Linqing Zhao, Jiwen Lu and Jie Zhou
- Abstract要約: 本研究では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。
我々は、入力とバックプロジェクションされた(2Dピクセルから)点雲の間の幾何学的および文脈的類似性を初めて学習する、後期融合戦略を採用している。
SAFNetは、様々なデータ完全性にまたがって、既存の最先端の核融合ベースのアプローチを著しく上回っている。
- 参考スコア(独自算出の注目度): 87.51314162700315
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, we propose a similarity-aware fusion network (SAFNet) to
adaptively fuse 2D images and 3D point clouds for 3D semantic segmentation.
Existing fusion-based methods achieve remarkable performances by integrating
information from multiple modalities. However, they heavily rely on the
correspondence between 2D pixels and 3D points by projection and can only
perform the information fusion in a fixed manner, and thus their performances
cannot be easily migrated to a more realistic scenario where the collected data
often lack strict pair-wise features for prediction. To address this, we employ
a late fusion strategy where we first learn the geometric and contextual
similarities between the input and back-projected (from 2D pixels) point clouds
and utilize them to guide the fusion of two modalities to further exploit
complementary information. Specifically, we employ a geometric similarity
module (GSM) to directly compare the spatial coordinate distributions of
pair-wise 3D neighborhoods, and a contextual similarity module (CSM) to
aggregate and compare spatial contextual information of corresponding central
points. The two proposed modules can effectively measure how much image
features can help predictions, enabling the network to adaptively adjust the
contributions of two modalities to the final prediction of each point.
Experimental results on the ScanNetV2 benchmark demonstrate that SAFNet
significantly outperforms existing state-of-the-art fusion-based approaches
across various data integrity.
- Abstract(参考訳): 本稿では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。
既存の融合法は、複数のモーダルからの情報を統合することで優れた性能を達成する。
しかし、2Dピクセルと3Dポイントの対応をプロジェクションによって大きく依存しており、情報融合のみを一定の方法で行うことができるため、収集したデータに厳密なペアワイズ機能がないような現実的なシナリオに容易に移行することはできない。
そこで我々は,入力とバックプロジェクション(2dピクセルから)点雲の幾何学的・文脈的類似性を学習し,これらを用いて2つのモーダルの融合を導くことで,補完的情報を活用する。
具体的には、幾何学的類似度モジュール(GSM)を用いて、対の3次元近傍の空間座標分布を直接比較し、文脈類似度モジュール(CSM)を用いて対応する中心点の空間座標情報を集約・比較する。
提案された2つのモジュールは、画像特徴が予測にどの程度役立つかを効果的に測定することができ、ネットワークが各ポイントの最終予測に対する2つのモダリティの寄与を適応的に調整することができる。
ScanNetV2ベンチマークの実験結果は、SAFNetが様々なデータ完全性にわたって既存の最先端の融合ベースのアプローチを著しく上回っていることを示している。
関連論文リスト
- S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Sparse Dense Fusion for 3D Object Detection [24.288662560178334]
カメラ-LiDAR融合は3Dオブジェクト検出で人気を博している。
我々は,1)3次元の幾何学的先行情報を保持するが,カメラからリッチな意味情報を失うこと,2)密度のみの代替手段が意味的連続性を保持すること,そして,LiDARの正確な幾何学的情報を見逃すこと,の2つの課題を分析する。
本稿では,Sparse Dense Fusion(SDF)を提案する。Sparse Dense Fusion(SDF)は,Transformerアーキテクチャを通じて,スパースフュージョンと高密度フュージョンモジュールの両方を組み込んだ補完的なフレームワークである。
論文 参考訳(メタデータ) (2023-04-09T07:10:34Z) - FFPA-Net: Efficient Feature Fusion with Projection Awareness for 3D
Object Detection [19.419030878019974]
構造化されていない3D点雲は2D平面に充填され、3D点雲はプロジェクション対応の畳み込み層を用いて高速に抽出される。
データ前処理において、異なるセンサ信号間の対応するインデックスを予め設定する。
2つの新しいプラグアンドプレイ融合モジュールLiCamFuseとBiLiCamFuseが提案されている。
論文 参考訳(メタデータ) (2022-09-15T16:13:19Z) - LATFormer: Locality-Aware Point-View Fusion Transformer for 3D Shape
Recognition [38.540048855119004]
そこで我々は,3次元形状検索と分類のためのLATFormer(Locality-Aware Point-View Fusion Transformer)を提案する。
LATFormerの中核となるコンポーネントはLocality-Aware Fusion (LAF) という名前のモジュールで、2つのモードにまたがる関連領域の局所的特徴を統合する。
LATFormerでは,LAFモジュールを用いて双方向および階層的に2つのモードのマルチスケール機能を融合し,より情報的な特徴を得る。
論文 参考訳(メタデータ) (2021-09-03T03:23:27Z) - MBDF-Net: Multi-Branch Deep Fusion Network for 3D Object Detection [17.295359521427073]
3次元物体検出のためのMulti-Branch Deep Fusion Network (MBDF-Net)を提案する。
最初の段階では、マルチブランチ機能抽出ネットワークは、Adaptive Attention Fusionモジュールを使用して、単一モーダルなセマンティックな特徴からクロスモーダルな融合機能を生成する。
第2段階では、関心領域(RoI)をプールした核融合モジュールを用いて局所的な特徴を改良する。
論文 参考訳(メタデータ) (2021-08-29T15:40:15Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Volumetric Propagation Network: Stereo-LiDAR Fusion for Long-Range Depth
Estimation [81.08111209632501]
長距離深度推定のための幾何認識型ステレオLiDAR融合ネットワークを提案する。
ステレオ画像の対応を統一した3Dボリューム空間で導くためのキューとして、スパースで正確な点群を活用します。
我々のネットワークは,KITTIおよびVirtual-KITTIデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-03-24T03:24:46Z) - FFB6D: A Full Flow Bidirectional Fusion Network for 6D Pose Estimation [54.666329929930455]
単一RGBD画像からの6次元ポーズ推定のための双方向融合ネットワークであるFFB6Dを提案する。
表現学習と出力表現選択のための表現情報と幾何学情報を組み合わせることを学ぶ。
提案手法は,いくつかのベンチマークにおいて,最先端の手法よりも大きなマージンを達成している。
論文 参考訳(メタデータ) (2021-03-03T08:07:29Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。