論文の概要: Image-to-Lidar Relational Distillation for Autonomous Driving Data
- arxiv url: http://arxiv.org/abs/2409.00845v1
- Date: Sun, 1 Sep 2024 21:26:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 08:51:29.883423
- Title: Image-to-Lidar Relational Distillation for Autonomous Driving Data
- Title(参考訳): 自律運転データに対する画像-ライダー関係蒸留
- Authors: Anas Mahmoud, Ali Harakeh, Steven Waslander,
- Abstract要約: 2Dファウンデーションモデルは、ロバストな表現のため、ダウンストリームの監督をほとんどあるいは全く行わずに、2Dタスクに対処するのに優れています。
2D-to-3D蒸留フレームワークの出現により、これらの機能は3Dモデルに拡張された。
しかし、自律運転データセットのための3D表現の蒸留は、自己相似性、クラス不均衡、ポイントクラウドの分散といった課題を提示している。
そこで本研究では, モーダル内およびクロスモーダル間の制約を強制するリレーショナル蒸留フレームワークを提案し, その結果, 2次元表現の構造を密に捉えた3次元表現が得られた。
- 参考スコア(独自算出の注目度): 4.893568782260855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained on extensive and diverse multi-modal datasets, 2D foundation models excel at addressing 2D tasks with little or no downstream supervision, owing to their robust representations. The emergence of 2D-to-3D distillation frameworks has extended these capabilities to 3D models. However, distilling 3D representations for autonomous driving datasets presents challenges like self-similarity, class imbalance, and point cloud sparsity, hindering the effectiveness of contrastive distillation, especially in zero-shot learning contexts. Whereas other methodologies, such as similarity-based distillation, enhance zero-shot performance, they tend to yield less discriminative representations, diminishing few-shot performance. We investigate the gap in structure between the 2D and the 3D representations that result from state-of-the-art distillation frameworks and reveal a significant mismatch between the two. Additionally, we demonstrate that the observed structural gap is negatively correlated with the efficacy of the distilled representations on zero-shot and few-shot 3D semantic segmentation. To bridge this gap, we propose a relational distillation framework enforcing intra-modal and cross-modal constraints, resulting in distilled 3D representations that closely capture the structure of the 2D representation. This alignment significantly enhances 3D representation performance over those learned through contrastive distillation in zero-shot segmentation tasks. Furthermore, our relational loss consistently improves the quality of 3D representations in both in-distribution and out-of-distribution few-shot segmentation tasks, outperforming approaches that rely on the similarity loss.
- Abstract(参考訳): 広範囲で多様なマルチモーダルデータセットに基づいて事前トレーニングされた2Dファウンデーションモデルは、ロバストな表現のため、下流の監視をほとんどあるいは全く行わない2Dタスクに対処するのに優れています。
2D-to-3D蒸留フレームワークの出現により、これらの機能は3Dモデルに拡張された。
しかしながら、自律運転データセットの3D表現の蒸留は、自己相似性、クラス不均衡、点雲の間隔といった課題を示し、特にゼロショット学習環境では、対照的な蒸留の有効性を妨げる。
類似性に基づく蒸留のような他の手法はゼロショット性能を高めるが、差別的な表現は少なく、少数ショット性能は低下する傾向にある。
本研究では, 最先端蒸留フレームワークによる2次元表現と3次元表現のギャップについて検討し, 両者の間に有意なミスマッチがあることを明らかにする。
さらに, 観察された構造的ギャップは, ゼロショットおよび少数ショットの3次元セマンティックセマンティックセグメンテーションにおける蒸留表現の有効性と負の相関があることを実証した。
このギャップを埋めるために,モーダル内およびクロスモーダル間の制約を強制するリレーショナル蒸留フレームワークを提案する。
このアライメントは、ゼロショットセグメンテーションタスクにおいて、対照的な蒸留によって得られた3次元表現性能を大幅に向上させる。
さらに、我々のリレーショナル・ロスは、分布内および分布外の両方における3次元表現の質を一貫して改善し、類似性損失に依存するアプローチよりも優れています。
関連論文リスト
- Multi-modal Relation Distillation for Unified 3D Representation Learning [30.942281325891226]
マルチモーダルリレーショナル蒸留(Multi-modal Relation Distillation、MRD)は、3次元バックボーンに再生可能な大型ビジョンランゲージモデル(VLM)を蒸留するために設計された3次元事前学習フレームワークである。
MRDは、各モダリティ内の関係と異なるモダリティ間の相互関係をキャプチャし、より差別的な3D形状表現を作り出すことを目的としている。
論文 参考訳(メタデータ) (2024-07-19T03:43:48Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Three Pillars improving Vision Foundation Model Distillation for Lidar [61.56521056618988]
蒸留における3つの柱の効果について検討した。3Dバックボーン,2Dバックボーン,および事前学習データセットである。
ScaLRと呼ばれるスケーラブルな蒸留法により、2Dと3Dのバックボーンのスケーリングと多様なデータセットの事前トレーニングにより、機能品質が大幅に向上することを示した。
論文 参考訳(メタデータ) (2023-10-26T15:54:43Z) - Self-Supervised Image-to-Point Distillation via Semantically Tolerant
Contrastive Loss [18.485918870427327]
本稿では, 画像領域と負の画像領域間の意味的距離を考慮に入れた, 意味論的に寛容な画像間のコントラスト損失を提案する。
提案手法は,最先端の2D-to-3D表現学習フレームワークを多種多様な自己教師付き事前学習モデルで一貫した性能を発揮する。
論文 参考訳(メタデータ) (2023-01-12T19:58:54Z) - RiCS: A 2D Self-Occlusion Map for Harmonizing Volumetric Objects [68.85305626324694]
カメラ空間における光マーチング (RiCS) は、3次元における前景物体の自己閉塞を2次元の自己閉塞マップに表現する新しい手法である。
表現マップは画像の質を高めるだけでなく,時間的コヒーレントな複雑な影効果をモデル化できることを示す。
論文 参考訳(メタデータ) (2022-05-14T05:35:35Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data [80.14669385741202]
本稿では,自律運転データに適した3次元知覚モデルのための自己教師付き事前学習手法を提案する。
我々は、自動走行装置における同期・校正画像とLidarセンサーの可用性を活用している。
私たちのメソッドは、ポイントクラウドや画像アノテーションを一切必要としません。
論文 参考訳(メタデータ) (2022-03-30T12:40:30Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。