論文の概要: xModel-KD: Cross-modal Knowledge Distillation for 3D Scene Perception using LiDAR
- arxiv url: http://arxiv.org/abs/2605.30111v1
- Date: Thu, 28 May 2026 15:48:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.450794
- Title: xModel-KD: Cross-modal Knowledge Distillation for 3D Scene Perception using LiDAR
- Title(参考訳): xModel-KD:LiDARを用いた3次元シーン知覚のためのクロスモーダル知識蒸留
- Authors: Thenukan Pathmanathan, Kanchan Keisham, Thangarajah Akilan,
- Abstract要約: 本稿では,3次元点雲分割のためのクロスモーダルな知識蒸留フレームワーク xModel-KD を提案する。
本手法は,2次元テクスチャと3次元幾何の相補的な長所を利用して,一意な点ごとの表現を学習する。
実験結果から,LiDARのみのベースラインよりもmIoUが2%絶対的に向上することが示唆された。
- 参考スコア(独自算出の注目度): 1.0055428846517074
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Point cloud segmentation is a fundamental task in 3D scene understanding. Its progress is constrained by the high cost and time required for dense 3D annotations, making labeled samples difficult to obtain. Beyond annotation scarcity, different sensing modalities face inherent limitations. 2D images provide rich texture and appearance cues, yet they lack explicit depth and geometric structure. In contrast, 3D point clouds capture accurate spatial geometry but are sparse and contain no texture information. As a result, relying on a single modality restricts the richness of learned representations and weakens generalization. Although recent multi-modal methods that combine 3D point clouds with 2D images have demonstrated strong performance in tasks such as classification and retrieval, they typically depend on large-scale labeled datasets and have not been fully exploited for data-efficient dense prediction. To address these limitations, we propose a novel cross-modal knowledge distillation framework, xModel-KD, for 3D point cloud segmentation. Our method exploits the complementary strengths of 2D texture and 3D geometry by learning unified per-point representations through cross-modal alignment. Specifically, we design a cross-modal fusion encoder trained with a contrastive objective that enforces feature consistency between corresponding 2D and 3D representations across multiple views. By integrating powerful pre-trained backbones with a targeted fusion strategy, the proposed framework effectively transfers appearance cues from images to geometry-aware point features. Experimental results show that cross-modal fusion achieves a 2% absolute improvement in mIoU over a LiDAR-only baseline, demonstrating the benefit of leveraging complementary multi-modal information for scalable and annotation-efficient 3D scene understanding.
- Abstract(参考訳): ポイントクラウドセグメンテーションは3Dシーン理解における基本的なタスクである。
その進行は、高密度な3Dアノテーションに必要な高コストと時間によって制約されており、ラベル付きサンプルを得るのが困難である。
アノテーションの不足に加えて、異なる感覚のモダリティは固有の制限に直面している。
2D画像は豊かなテクスチャと外観の手がかりを提供するが、明らかな深さと幾何学的構造は欠如している。
対照的に、3次元の点雲は正確な空間幾何学を捉えているが、スパースであり、テクスチャ情報を含んでいない。
結果として、単一のモジュラリティに依存することは、学習された表現の豊かさを制限し、一般化を弱める。
近年の3次元点雲と2次元画像を組み合わせたマルチモーダル手法は,分類や検索などのタスクにおいて高い性能を示してきたが,これらは大規模ラベル付きデータセットに依存しており,データ効率の高い高密度予測には十分に活用されていない。
これらの制約に対処するため、3次元点雲分割のための新しいクロスモーダルな知識蒸留フレームワーク xModel-KD を提案する。
本手法は,2次元テクスチャと3次元幾何の相補的な強度を利用して,一点あたりの表現を相互にアライメントすることで学習する。
具体的には、複数のビューにまたがる対応する2次元および3次元表現間の特徴整合性を強制する、対照的な目的で訓練されたクロスモーダル融合エンコーダを設計する。
提案手法は,強力な事前学習されたバックボーンと目標核融合戦略を統合することにより,画像から幾何学的特徴への外観手がかりの伝達を効果的に行う。
実験結果から,LiDARのみのベースラインよりも2パーセントの絶対的なmIoU向上を実現し,拡張性とアノテーション効率のよい3Dシーン理解に相補的なマルチモーダル情報を活用するメリットが示された。
関連論文リスト
- TriCLIP-3D: A Unified Parameter-Efficient Framework for Tri-Modal 3D Visual Grounding based on CLIP [52.79100775328595]
3Dビジュアルグラウンドティングは、人間の指示に基づいて現実世界の3D環境における視覚情報を理解するための具体的エージェントである。
既存の3Dビジュアルグラウンド法は、異なるモダリティの異なるエンコーダに依存している。
本稿では,3つのモードすべてを処理するために,統合された2次元事前学習型マルチモーダルネットワークを提案する。
論文 参考訳(メタデータ) (2025-07-20T10:28:06Z) - Enhanced Cross-modal 3D Retrieval via Tri-modal Reconstruction [4.820576346277399]
クロスモーダルな3D検索は重要な課題であり、3Dとテキストのモダリティ間の双方向検索の実現を目指している。
マルチビュー画像と点雲を併用して3次元形状を共同で表現し,3次元アライメントを容易にすることを提案する。
本手法は, テキスト検索とテキスト検索の両方において, 従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-04-02T08:29:42Z) - Cross-modal and Cross-domain Knowledge Transfer for Label-free 3D
Segmentation [23.110443633049382]
本稿では,画像と点雲の関係を網羅的に探究することで,クロスモーダル・クロスドメイン適応に挑戦する新しい手法を提案する。
KITTI360 と GTA5 の知識を用いて,セマンティック KITTI 上の3次元クラウドセマンティックセマンティックセマンティックスセグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-19T14:29:57Z) - Intrinsic Image Decomposition Using Point Cloud Representation [13.771632868567277]
本稿では3次元クラウドデータを利用してアルベドとシェーディングマップを同時に推定するPoint Intrinsic Net(PoInt-Net)を紹介する。
PoInt-Netは効率的で、任意のサイズのポイントクラウドで一貫したパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-07-20T14:51:28Z) - Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud
Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文 参考訳(メタデータ) (2023-02-27T17:56:18Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。