論文の概要: Multi-View Projection for Unsupervised Domain Adaptation in 3D Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2505.15545v2
- Date: Tue, 30 Sep 2025 12:17:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.748034
- Title: Multi-View Projection for Unsupervised Domain Adaptation in 3D Semantic Segmentation
- Title(参考訳): 3次元セマンティックセグメンテーションにおける教師なし領域適応のための多視点投影
- Authors: Andrew Caunes, Thierry Chateau, Vincent Fremont,
- Abstract要約: 教師なしドメイン適応(UDA)のための多視点プロジェクションフレームワークを提案する。
我々の手法はLiDARスキャンをコヒーレントな3Dシーンに整列し、複数の仮想カメラのポーズからレンダリングして2Dデータセット(PC2D)を生成する。
2Dセグメンテーションモデルのアンサンブルは、これらのモダリティに基づいて訓練され、推論中は、1シーンあたり数百ビューが処理され、ロジットは3Dにバックプロジェクションされる。
我々のフレームワークはレアクラスのセグメンテーションを可能にし、それらのクラスに対する2Dアノテーションのみを活用しながら、ソースドメイン内の他のクラスに対する3Dアノテーションに依存していることを示す。
- 参考スコア(独自算出の注目度): 0.9345376836714131
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: 3D semantic segmentation is essential for autonomous driving and road infrastructure analysis, but state-of-the-art 3D models suffer from severe domain shift when applied across datasets. We propose a multi-view projection framework for unsupervised domain adaptation (UDA). Our method aligns LiDAR scans into coherent 3D scenes and renders them from multiple virtual camera poses to generate large-scale synthetic 2D datasets (PC2D) in various modalities. An ensemble of 2D segmentation models is trained on these modalities, and during inference, hundreds of views per scene are processed, with logits back-projected to 3D using an occlusion-aware voting scheme to produce point-wise labels. These labels can be used directly or to fine-tune a 3D segmentation model in the target domain. We evaluate our approach in both Real-to-Real and Simulation-to-Real UDA, achieving state-of-the-art performance in the Real-to-Real setting. Furthermore, we show that our framework enables segmentation of rare classes, leveraging only 2D annotations for those classes while relying on 3D annotations for others in the source domain.
- Abstract(参考訳): 3Dセマンティックセグメンテーションは、自動運転と道路インフラ分析に不可欠だが、最先端の3Dモデルは、データセット全体に適用した場合、厳しいドメインシフトに悩まされる。
教師なしドメイン適応(UDA)のための多視点プロジェクションフレームワークを提案する。
提案手法は,LiDARスキャンをコヒーレントな3Dシーンに整列させ,複数の仮想カメラのポーズからレンダリングすることで,大規模合成2Dデータセット(PC2D)を様々なモードで生成する。
2Dセグメンテーションモデルのアンサンブルはこれらのモダリティに基づいて訓練され、推論中は、数百のビューが処理され、ロジットを3Dにバックプロジェクションし、オクルージョン対応の投票スキームを使用してポイントワイズラベルを生成する。
これらのラベルは、直接またはターゲットドメイン内の3Dセグメンテーションモデルを微調整するために使用することができる。
我々は,本手法をリアル・トゥ・リアルとシミュレーション・トゥ・リアルの両方で評価し,リアル・トゥ・リアル設定における最先端性能を実現する。
さらに,本フレームワークはレアクラスのセグメンテーションを可能にし,それらのクラスに対する2Dアノテーションのみを活用しながら,ソースドメイン内の他のクラスに対する3Dアノテーションに依存していることを示す。
関連論文リスト
- DINO in the Room: Leveraging 2D Foundation Models for 3D Segmentation [51.43837087865105]
大規模な画像データセットに基づいてトレーニングされた視覚基礎モデル(VFM)は、非常に高度な2D視覚認識を備えた高品質な機能を提供する。
3D画像と3Dポイントクラウドデータセットの共通利用にもかかわらず、彼らの3Dビジョンのポテンシャルは依然としてほとんど未解決のままである。
2Dファンデーションモデルの特徴を抽出し,それを3Dに投影し,最終的に3Dポイントクラウドセグメンテーションモデルに注入する,シンプルで効果的なアプローチであるDITRを導入する。
論文 参考訳(メタデータ) (2025-03-24T17:59:11Z) - xMOD: Cross-Modal Distillation for 2D/3D Multi-Object Discovery from 2D motion [4.878192303432336]
DIOD-3Dは2Dモーションを用いた3Dデータにおけるマルチオブジェクト発見のための最初のベースラインである。
xMODは、常に2Dモーションキューを使用しながら、2Dと3Dデータを統合したクロスプラットフォームのトレーニングフレームワークである。
提案手法は,全データセットの2次元オブジェクト発見状態と比較すると,大幅な性能向上をもたらす。
論文 参考訳(メタデータ) (2025-03-19T09:20:35Z) - Unifying 2D and 3D Vision-Language Understanding [85.84054120018625]
2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。
UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文 参考訳(メタデータ) (2025-03-13T17:56:22Z) - DCSEG: Decoupled 3D Open-Set Segmentation using Gaussian Splatting [0.0]
本稿では,新しい3次元表現へのモジュラリティと適応性を確保するために,分離した3次元分割パイプラインを提案する。
我々は、合成および実世界の屋内データセットを評価し、同等のNeRFパイプラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-12-14T21:26:44Z) - Zero-Shot Dual-Path Integration Framework for Open-Vocabulary 3D Instance Segmentation [19.2297264550686]
Open-vocabulary 3Dのインスタンスセグメンテーションは、従来のクローズドボキャブラリーメソッドを超越する。
我々は、Zero-Shot Dual-Path Integration Frameworkを導入し、3Dと2Dの両方のモダリティの貢献を等しく評価する。
筆者らのフレームワークは,ゼロショット方式で事前学習したモデルを利用しており,モデル非依存であり,目に見えるデータと目に見えないデータの両方において優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-16T07:52:00Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Cross-modal & Cross-domain Learning for Unsupervised LiDAR Semantic
Segmentation [82.47872784972861]
対象領域における3次元LiDARセマンティックセマンティックセグメンテーション(DLSS)のラベル付けコストを軽減するため、ペア化された2次元画像と3次元LiDARデータに対して、クロスモーダルドメイン適応について検討した。
本稿では,セマンティックアノテーションを持つ2次元データセットとペアだが注釈のない2次元画像と3次元LiDARデータ(ターゲット)が利用できる新しい3DLSS設定について検討する。
このシナリオで3DLSSを実現するために,クロスモーダル・クロスドメイン学習(CoMoDaL)を提案する。
論文 参考訳(メタデータ) (2023-08-05T14:00:05Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - Sparse-to-dense Feature Matching: Intra and Inter domain Cross-modal
Learning in Domain Adaptation for 3D Semantic Segmentation [46.110739803985076]
ドメイン適応のための多モード情報相互作用の十分性を高めるために,動的スパース・ツー・ディエンス・クロスモーダル学習(DsCML)を提案する。
ドメイン間クロスモーダル学習では,2次元および3次元データ上でのクロスモーダル適応学習(CMAL)をさらに進める。
本研究では,日中・日中・日中・日中・データセットなど,多目的領域適応設定によるモデルの評価を行った。
論文 参考訳(メタデータ) (2021-07-30T15:55:55Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。