論文の概要: Three Pillars improving Vision Foundation Model Distillation for Lidar
- arxiv url: http://arxiv.org/abs/2310.17504v2
- Date: Mon, 19 Feb 2024 20:19:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 20:27:27.818841
- Title: Three Pillars improving Vision Foundation Model Distillation for Lidar
- Title(参考訳): ライダーのビジョン基礎モデル蒸留を改善する3つのピラー
- Authors: Gilles Puy, Spyros Gidaris, Alexandre Boulch, Oriane Sim\'eoni,
Corentin Sautier, Patrick P\'erez, Andrei Bursuc, Renaud Marlet
- Abstract要約: 蒸留における3つの柱の効果について検討した。3Dバックボーン,2Dバックボーン,および事前学習データセットである。
ScaLRと呼ばれるスケーラブルな蒸留法により、2Dと3Dのバックボーンのスケーリングと多様なデータセットの事前トレーニングにより、機能品質が大幅に向上することを示した。
- 参考スコア(独自算出の注目度): 61.56521056618988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised image backbones can be used to address complex 2D tasks
(e.g., semantic segmentation, object discovery) very efficiently and with
little or no downstream supervision. Ideally, 3D backbones for lidar should be
able to inherit these properties after distillation of these powerful 2D
features. The most recent methods for image-to-lidar distillation on autonomous
driving data show promising results, obtained thanks to distillation methods
that keep improving. Yet, we still notice a large performance gap when
measuring the quality of distilled and fully supervised features by linear
probing. In this work, instead of focusing only on the distillation method, we
study the effect of three pillars for distillation: the 3D backbone, the
pretrained 2D backbones, and the pretraining dataset. In particular, thanks to
our scalable distillation method named ScaLR, we show that scaling the 2D and
3D backbones and pretraining on diverse datasets leads to a substantial
improvement of the feature quality. This allows us to significantly reduce the
gap between the quality of distilled and fully-supervised 3D features, and to
improve the robustness of the pretrained backbones to domain gaps and
perturbations.
- Abstract(参考訳): 自己監督されたイメージバックボーンは、複雑な2Dタスク(セマンティックセグメンテーション、オブジェクト発見など)に、非常に効率的に対処するために使用でき、下流の監視はほとんど、あるいは全く行わない。
理想的には、ライダー用の3Dバックボーンは、これらの強力な2D特徴を蒸留した後、これらの特性を継承できるはずである。
自動運転データを用いた最新の画像からライダーへの蒸留法では,蒸留法の改善により有望な結果が得られた。
しかし,リニアプローブによる蒸留および完全に監視された機能の品質測定では,性能の差が大きいことが判明した。
本研究では, 蒸留法のみに焦点をあてるのではなく, 3次元バックボーン, 事前訓練された2次元バックボーン, 事前学習データセットの3つの柱の効果について検討した。
特に, スケーラブル蒸留法であるScaLRにより, 2Dおよび3Dバックボーンのスケーリングと, 多様なデータセットの事前学習により, 機能品質が大幅に向上することを示した。
これにより、蒸留された3次元特徴と完全に監督された3次元特徴のギャップを著しく減らし、事前訓練されたバックボーンの堅牢性をドメインギャップと摂動に改善することができる。
関連論文リスト
- Image-to-Lidar Relational Distillation for Autonomous Driving Data [4.893568782260855]
2Dファウンデーションモデルは、ロバストな表現のため、ダウンストリームの監督をほとんどあるいは全く行わずに、2Dタスクに対処するのに優れています。
2D-to-3D蒸留フレームワークの出現により、これらの機能は3Dモデルに拡張された。
しかし、自律運転データセットのための3D表現の蒸留は、自己相似性、クラス不均衡、ポイントクラウドの分散といった課題を提示している。
そこで本研究では, モーダル内およびクロスモーダル間の制約を強制するリレーショナル蒸留フレームワークを提案し, その結果, 2次元表現の構造を密に捉えた3次元表現が得られた。
論文 参考訳(メタデータ) (2024-09-01T21:26:32Z) - Improving 2D Feature Representations by 3D-Aware Fine-Tuning [17.01280751430423]
現在の視覚基礎モデルは、構造化されていない2Dデータに基づいて純粋に訓練されている。
3次元認識データの微調整により,出現するセマンティックな特徴の質が向上することを示す。
論文 参考訳(メタデータ) (2024-07-29T17:59:21Z) - DeCoTR: Enhancing Depth Completion with 2D and 3D Attentions [41.55908366474901]
本研究では,2次元と3次元の両方の注意を生かし,高精度な深度補完を実現する手法を提案する。
提案手法であるDeCoTRを,確立した深度補完ベンチマークで評価した。
論文 参考訳(メタデータ) (2024-03-18T19:22:55Z) - 3D Point Cloud Pre-training with Knowledge Distillation from 2D Images [128.40422211090078]
本稿では,2次元表現学習モデルから直接知識を取得するために,3次元ポイントクラウド事前学習モデルの知識蒸留手法を提案する。
具体的には、3Dポイントクラウドから概念特徴を抽出し、2D画像からの意味情報と比較するクロスアテンション機構を提案する。
このスキームでは,2次元教師モデルに含まれるリッチな情報から,クラウド事前学習モデルを直接学習する。
論文 参考訳(メタデータ) (2022-12-17T23:21:04Z) - RiCS: A 2D Self-Occlusion Map for Harmonizing Volumetric Objects [68.85305626324694]
カメラ空間における光マーチング (RiCS) は、3次元における前景物体の自己閉塞を2次元の自己閉塞マップに表現する新しい手法である。
表現マップは画像の質を高めるだけでなく,時間的コヒーレントな複雑な影効果をモデル化できることを示す。
論文 参考訳(メタデータ) (2022-05-14T05:35:35Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。