論文の概要: Revisiting the Distillation of Image Representations into Point Clouds
for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2310.17504v1
- Date: Thu, 26 Oct 2023 15:54:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 19:31:03.694404
- Title: Revisiting the Distillation of Image Representations into Point Clouds
for Autonomous Driving
- Title(参考訳): 自律運転のための点雲への画像表現の蒸留再検討
- Authors: Gilles Puy, Spyros Gidaris, Alexandre Boulch, Oriane Sim\'eoni,
Corentin Sautier, Patrick P\'erez, Andrei Bursuc, Renaud Marlet
- Abstract要約: 自己監督画像ネットワークは、複雑な2Dタスクに非常に効率的に対処し、下流の監視をほとんど、あるいは全く行わずに使用できる。
高品質な自己監督型2D特徴量を3Dネットワークに抽出する手法が提案されている。
我々の高品質蒸留表現は,開語彙セグメンテーションや背景・背景発見にも利用できることを示す。
- 参考スコア(独自算出の注目度): 61.56521056618988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised image networks can be used to address complex 2D tasks (e.g.,
semantic segmentation, object discovery) very efficiently and with little or no
downstream supervision. However, self-supervised 3D networks on lidar data do
not perform as well for now. A few methods therefore propose to distill
high-quality self-supervised 2D features into 3D networks. The most recent ones
doing so on autonomous driving data show promising results. Yet, a performance
gap persists between these distilled features and fully-supervised ones. In
this work, we revisit 2D-to-3D distillation. First, we propose, for semantic
segmentation, a simple approach that leads to a significant improvement
compared to prior 3D distillation methods. Second, we show that distillation in
high capacity 3D networks is key to reach high quality 3D features. This
actually allows us to significantly close the gap between unsupervised
distilled 3D features and fully-supervised ones. Last, we show that our
high-quality distilled representations can also be used for open-vocabulary
segmentation and background/foreground discovery.
- Abstract(参考訳): 自己教師付きイメージネットワークは、複雑な2Dタスク(セマンティックセグメンテーション、オブジェクト発見など)に、非常に効率的に対処するために使用でき、下流の監視はほとんど、あるいは全く行わない。
しかし、ライダーデータ上の自己監督型3Dネットワークは、今のところあまり機能しない。
そこで, 高品質な自己監督型2次元特徴量を3次元ネットワークに抽出する手法を提案する。
最近の自動運転データでは有望な結果が示されています。
しかし、これらの蒸留された特徴と完全に監督された特徴の間には、性能ギャップが持続する。
本研究では2D-to-3D蒸留について再考する。
まず, セマンティックセグメンテーションについて, 従来の3次元蒸留法と比較して, 大幅な改善をもたらす簡単なアプローチを提案する。
第2に,高容量3dネットワークの蒸留が高品質な3d機能を実現する鍵であることを示す。
これにより、教師なしの蒸留された3D特徴と、完全に監督された特徴とのギャップを大幅に埋めることができます。
最後に,我々の高品質蒸留表現は,開語彙セグメンテーションや背景・背景発見にも利用できることを示す。
関連論文リスト
- Image-to-Lidar Relational Distillation for Autonomous Driving Data [4.893568782260855]
2Dファウンデーションモデルは、ロバストな表現のため、ダウンストリームの監督をほとんどあるいは全く行わずに、2Dタスクに対処するのに優れています。
2D-to-3D蒸留フレームワークの出現により、これらの機能は3Dモデルに拡張された。
しかし、自律運転データセットのための3D表現の蒸留は、自己相似性、クラス不均衡、ポイントクラウドの分散といった課題を提示している。
そこで本研究では, モーダル内およびクロスモーダル間の制約を強制するリレーショナル蒸留フレームワークを提案し, その結果, 2次元表現の構造を密に捉えた3次元表現が得られた。
論文 参考訳(メタデータ) (2024-09-01T21:26:32Z) - Improving 2D Feature Representations by 3D-Aware Fine-Tuning [17.01280751430423]
現在の視覚基礎モデルは、構造化されていない2Dデータに基づいて純粋に訓練されている。
3次元認識データの微調整により,出現するセマンティックな特徴の質が向上することを示す。
論文 参考訳(メタデータ) (2024-07-29T17:59:21Z) - DeCoTR: Enhancing Depth Completion with 2D and 3D Attentions [41.55908366474901]
本研究では,2次元と3次元の両方の注意を生かし,高精度な深度補完を実現する手法を提案する。
提案手法であるDeCoTRを,確立した深度補完ベンチマークで評価した。
論文 参考訳(メタデータ) (2024-03-18T19:22:55Z) - 3D Point Cloud Pre-training with Knowledge Distillation from 2D Images [128.40422211090078]
本稿では,2次元表現学習モデルから直接知識を取得するために,3次元ポイントクラウド事前学習モデルの知識蒸留手法を提案する。
具体的には、3Dポイントクラウドから概念特徴を抽出し、2D画像からの意味情報と比較するクロスアテンション機構を提案する。
このスキームでは,2次元教師モデルに含まれるリッチな情報から,クラウド事前学習モデルを直接学習する。
論文 参考訳(メタデータ) (2022-12-17T23:21:04Z) - RiCS: A 2D Self-Occlusion Map for Harmonizing Volumetric Objects [68.85305626324694]
カメラ空間における光マーチング (RiCS) は、3次元における前景物体の自己閉塞を2次元の自己閉塞マップに表現する新しい手法である。
表現マップは画像の質を高めるだけでなく,時間的コヒーレントな複雑な影効果をモデル化できることを示す。
論文 参考訳(メタデータ) (2022-05-14T05:35:35Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。