論文の概要: Exploiting the Complementarity of 2D and 3D Networks to Address
Domain-Shift in 3D Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2304.02991v1
- Date: Thu, 6 Apr 2023 10:59:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 14:28:52.293899
- Title: Exploiting the Complementarity of 2D and 3D Networks to Address
Domain-Shift in 3D Semantic Segmentation
- Title(参考訳): 3次元セマンティックセグメンテーションにおけるドメインシフトに対応する2次元ネットワークと3次元ネットワークの相補性
- Authors: Adriano Cardace, Pierluigi Zama Ramirez, Samuele Salti, Luigi Di
Stefano
- Abstract要約: 3Dセマンティックセグメンテーションは、自律運転、ロボット工学、混合現実など、多くの現実世界のアプリケーションにおいて重要なタスクである。
可能な解決策は、3D情報とRGBカメラのような異なるモダリティを特徴とするセンサーから得られる他の情報とを組み合わせることである。
最近のマルチモーダルな3Dセマンティックセグメンテーションネットワークは、2D情報と3D情報を独立に処理する2つのブランチに依存してこれらのモダリティを利用する。
- 参考スコア(独自算出の注目度): 14.30113021974841
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D semantic segmentation is a critical task in many real-world applications,
such as autonomous driving, robotics, and mixed reality. However, the task is
extremely challenging due to ambiguities coming from the unstructured, sparse,
and uncolored nature of the 3D point clouds. A possible solution is to combine
the 3D information with others coming from sensors featuring a different
modality, such as RGB cameras. Recent multi-modal 3D semantic segmentation
networks exploit these modalities relying on two branches that process the 2D
and 3D information independently, striving to maintain the strength of each
modality. In this work, we first explain why this design choice is effective
and then show how it can be improved to make the multi-modal semantic
segmentation more robust to domain shift. Our surprisingly simple contribution
achieves state-of-the-art performances on four popular multi-modal unsupervised
domain adaptation benchmarks, as well as better results in a domain
generalization scenario.
- Abstract(参考訳): 3dセマンティックセグメンテーションは、自動運転、ロボティクス、混合現実など、多くの現実世界のアプリケーションにおいて重要なタスクである。
しかし、この課題は3dポイント雲の非構造的、ばらばらで無彩な性質から生じるあいまいさのため、非常に困難である。
可能な解決策は、3d情報をrgbカメラのような異なるモードのセンサーから得られる他の情報と組み合わせることだ。
最近のマルチモーダルな3Dセマンティックセグメンテーションネットワークは、2Dおよび3D情報を独立に処理する2つのブランチに依存してこれらのモダリティを活用し、各モダリティの強度を維持する。
本稿では,この設計選択が効果的である理由を最初に説明し,ドメインシフトに対してマルチモーダルなセマンティックセグメンテーションをより堅牢にするためにどのように改善できるかを示す。
我々の驚くほど単純な貢献は、一般的な4つのマルチモーダルな教師なしドメイン適応ベンチマークにおける最先端のパフォーマンスと、ドメインの一般化シナリオにおけるより良い結果を達成する。
関連論文リスト
- ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and
Quasi-Planar Segmentation [53.83313235792596]
本稿では,RGB-Dシーケンスからのリアルタイム意味マッピングのための新しい手法を提案する。
2DニューラルネットワークとSLAMシステムに基づく3Dネットワークと3D占有マッピングを組み合わせる。
本システムは,2D-3Dネットワークベースシステムにおいて,最先端のセマンティックマッピング品質を実現する。
論文 参考訳(メタデータ) (2023-06-28T22:36:44Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - Towards Deeper and Better Multi-view Feature Fusion for 3D Semantic
Segmentation [17.557697146752652]
2Dと3Dセマンティックセマンティックセグメンテーションは3Dシーン理解において主流になっている。
この2つの異なる空間から立体的特徴を融合し処理する方法はまだ解明されていない。
本稿では,その単純さに拘わらず,一方向の多視点2次元深部セマンティックな特徴を3次元の深部セマンティックな特徴と整合した3次元空間に投影することで,より優れた機能融合がもたらされることを論じる。
論文 参考訳(メタデータ) (2022-12-13T15:58:25Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - Multi-initialization Optimization Network for Accurate 3D Human Pose and
Shape Estimation [75.44912541912252]
我々はMulti-Initialization Optimization Network(MION)という3段階のフレームワークを提案する。
第1段階では,入力サンプルの2次元キーポイントに適合する粗い3次元再構成候補を戦略的に選択する。
第2段階では, メッシュ改質トランス (MRT) を設計し, 自己保持機構を用いて粗い再構成結果をそれぞれ洗練する。
最後に,RGB画像の視覚的証拠が与えられた3次元再構成と一致するかどうかを評価することで,複数の候補から最高の結果を得るために,一貫性推定ネットワーク(CEN)を提案する。
論文 参考訳(メタデータ) (2021-12-24T02:43:58Z) - Data Augmented 3D Semantic Scene Completion with 2D Segmentation Priors [1.0973642726108543]
本稿では,新しいマルチモーダル3DディープCNNであるSPAwNを紹介する。
この分野で重要な課題は、完全にラベル付けされた現実世界の3Dデータセットがないことである。
本稿では,マルチモーダルSCネットワークに適用可能な3次元データ拡張戦略を提案する。
論文 参考訳(メタデータ) (2021-11-26T04:08:34Z) - Sparse-to-dense Feature Matching: Intra and Inter domain Cross-modal
Learning in Domain Adaptation for 3D Semantic Segmentation [46.110739803985076]
ドメイン適応のための多モード情報相互作用の十分性を高めるために,動的スパース・ツー・ディエンス・クロスモーダル学習(DsCML)を提案する。
ドメイン間クロスモーダル学習では,2次元および3次元データ上でのクロスモーダル適応学習(CMAL)をさらに進める。
本研究では,日中・日中・日中・日中・データセットなど,多目的領域適応設定によるモデルの評価を行った。
論文 参考訳(メタデータ) (2021-07-30T15:55:55Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z) - Virtual Multi-view Fusion for 3D Semantic Segmentation [11.259694096475766]
仮想ビューにより,従来のマルチビュー手法よりも2次元セマンティックセグメンテーションネットワークを効果的に学習できることを示す。
画素ごとの2次元予測を3次元面に集約すると,仮想多視点融合法により,より優れた3次元セマンティックセマンティックセマンティクス結果が得られる。
論文 参考訳(メタデータ) (2020-07-26T14:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。