論文の概要: Towards Deeper and Better Multi-view Feature Fusion for 3D Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2212.06682v1
- Date: Tue, 13 Dec 2022 15:58:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 14:54:59.562402
- Title: Towards Deeper and Better Multi-view Feature Fusion for 3D Semantic
Segmentation
- Title(参考訳): 3次元セマンティックセグメンテーションのためのより深いマルチビュー機能融合を目指して
- Authors: Chaolong Yang, Yuyao Yan, Weiguang Zhao, Jianan Ye, Xi Yang, Amir
Hussain, Kaizhu Huang
- Abstract要約: 2Dと3Dセマンティックセマンティックセグメンテーションは3Dシーン理解において主流になっている。
この2つの異なる空間から立体的特徴を融合し処理する方法はまだ解明されていない。
本稿では,その単純さに拘わらず,一方向の多視点2次元深部セマンティックな特徴を3次元の深部セマンティックな特徴と整合した3次元空間に投影することで,より優れた機能融合がもたらされることを論じる。
- 参考スコア(独自算出の注目度): 17.557697146752652
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: 3D point clouds are rich in geometric structure information, while 2D images
contain important and continuous texture information. Combining 2D information
to achieve better 3D semantic segmentation has become mainstream in 3D scene
understanding. Albeit the success, it still remains elusive how to fuse and
process the cross-dimensional features from these two distinct spaces. Existing
state-of-the-art usually exploit bidirectional projection methods to align the
cross-dimensional features and realize both 2D & 3D semantic segmentation
tasks. However, to enable bidirectional mapping, this framework often requires
a symmetrical 2D-3D network structure, thus limiting the network's flexibility.
Meanwhile, such dual-task settings may distract the network easily and lead to
over-fitting in the 3D segmentation task. As limited by the network's
inflexibility, fused features can only pass through a decoder network, which
affects model performance due to insufficient depth. To alleviate these
drawbacks, in this paper, we argue that despite its simplicity, projecting
unidirectionally multi-view 2D deep semantic features into the 3D space aligned
with 3D deep semantic features could lead to better feature fusion. On the one
hand, the unidirectional projection enforces our model focused more on the core
task, i.e., 3D segmentation; on the other hand, unlocking the bidirectional to
unidirectional projection enables a deeper cross-domain semantic alignment and
enjoys the flexibility to fuse better and complicated features from very
different spaces. In joint 2D-3D approaches, our proposed method achieves
superior performance on the ScanNetv2 benchmark for 3D semantic segmentation.
- Abstract(参考訳): 3次元点雲は幾何学的構造情報に富み、2次元画像は重要かつ連続的なテクスチャ情報を含んでいる。
より優れた3Dセマンティックセマンティックセグメンテーションを実現するために2D情報を組み合わせることは、3Dシーン理解において主流となっている。
成功にもかかわらず、これらの2つの異なる空間から立体的特徴を融合し処理する方法はまだ解明されていない。
既存の最先端技術は通常、双方向投影法を利用して、二次元の特徴を整列させ、2Dおよび3Dセマンティックセグメンテーションタスクを実現する。
しかし、双方向マッピングを実現するために、このフレームワークは対称な2D-3Dネットワーク構造を必要とすることが多く、ネットワークの柔軟性が制限される。
一方、このようなデュアルタスク設定はネットワークを混乱させやすくし、3Dセグメンテーションタスクの過度な適合につながる可能性がある。
ネットワークの柔軟性に制限されているため、融合した機能はデコーダネットワークを経由するしかなく、深度不足によるモデル性能に影響する。
これらの欠点を和らげるために,我々は,その単純さにもかかわらず,一方向的多視点の2d深層セマンティック機能を3d空間に投影することは,より優れた機能融合につながると論じている。
一方、一方向プロジェクションは、コアタスク、すなわち3次元セグメンテーションに焦点を当てたモデルを実行する。一方、双方向と一方向プロジェクションのアンロックは、より深いドメイン間セマンティックアライメントを可能にし、非常に異なる空間からより良い複雑な特徴を融合させる柔軟性を享受する。
3次元セマンティクスセグメンテーションのためのscannetv2ベンチマークにおいて,提案手法が優れた性能を得た。
関連論文リスト
- DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - Exploiting the Complementarity of 2D and 3D Networks to Address
Domain-Shift in 3D Semantic Segmentation [14.30113021974841]
3Dセマンティックセグメンテーションは、自律運転、ロボット工学、混合現実など、多くの現実世界のアプリケーションにおいて重要なタスクである。
可能な解決策は、3D情報とRGBカメラのような異なるモダリティを特徴とするセンサーから得られる他の情報とを組み合わせることである。
最近のマルチモーダルな3Dセマンティックセグメンテーションネットワークは、2D情報と3D情報を独立に処理する2つのブランチに依存してこれらのモダリティを利用する。
論文 参考訳(メタデータ) (2023-04-06T10:59:43Z) - Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud
Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文 参考訳(メタデータ) (2023-02-27T17:56:18Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z) - Bidirectional Projection Network for Cross Dimension Scene Understanding [69.29443390126805]
本稿では,2次元および3次元の連立推論のための縦方向投影網(BPNet)をエンドツーエンドに提示する。
emphBPM、補完的な2D、および3D情報は、複数のアーキテクチャレベルで相互に相互作用することができる。
我々のemphBPNetは2次元および3次元セマンティックセマンティックセグメンテーションのためのScanNetV2ベンチマークで最高性能を達成した。
論文 参考訳(メタデータ) (2021-03-26T08:31:39Z) - Learning Joint 2D-3D Representations for Depth Completion [90.62843376586216]
2Dおよび3Dの関節の特徴を抽出することを学ぶシンプルで効果的なニューラルネットワークブロックを設計します。
具体的には、画像画素に2D畳み込みと3D点に連続畳み込みを施した2つのドメイン固有のサブネットワークから構成される。
論文 参考訳(メタデータ) (2020-12-22T22:58:29Z) - Self-supervised Feature Learning by Cross-modality and Cross-view
Correspondences [32.01548991331616]
本稿では,2次元画像特徴と3次元ポイントクラウド特徴の両方を学習するための,自己指導型学習手法を提案する。
注釈付きラベルを使わずに、クロスモダリティとクロスビュー対応を利用する。
学習した2次元特徴と3次元特徴の有効性を5つの異なるタスクで伝達することによって評価する。
論文 参考訳(メタデータ) (2020-04-13T02:57:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。