論文の概要: HVDistill: Transferring Knowledge from Images to Point Clouds via Unsupervised Hybrid-View Distillation
- arxiv url: http://arxiv.org/abs/2403.11817v1
- Date: Mon, 18 Mar 2024 14:18:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 20:10:10.228781
- Title: HVDistill: Transferring Knowledge from Images to Point Clouds via Unsupervised Hybrid-View Distillation
- Title(参考訳): HVDistill: 教師なしハイブリッドビュー蒸留による画像からポイントクラウドへの知識伝達
- Authors: Sha Zhang, Jiajun Deng, Lei Bai, Houqiang Li, Wanli Ouyang, Yanyong Zhang,
- Abstract要約: 本稿では,HVDistillと呼ばれるハイブリッドビューに基づく知識蒸留フレームワークを提案する。
提案手法は,スクラッチからトレーニングしたベースラインに対して一貫した改善を実現し,既存のスキームを大幅に上回っている。
- 参考スコア(独自算出の注目度): 106.09886920774002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a hybrid-view-based knowledge distillation framework, termed HVDistill, to guide the feature learning of a point cloud neural network with a pre-trained image network in an unsupervised man- ner. By exploiting the geometric relationship between RGB cameras and LiDAR sensors, the correspondence between the two modalities based on both image- plane view and bird-eye view can be established, which facilitates representation learning. Specifically, the image-plane correspondences can be simply ob- tained by projecting the point clouds, while the bird- eye-view correspondences can be achieved by lifting pixels to the 3D space with the predicted depths un- der the supervision of projected point clouds. The image teacher networks provide rich semantics from the image-plane view and meanwhile acquire geometric information from the bird-eye view. Indeed, image features from the two views naturally comple- ment each other and together can ameliorate the learned feature representation of the point cloud stu- dent networks. Moreover, with a self-supervised pre- trained 2D network, HVDistill requires neither 2D nor 3D annotations. We pre-train our model on nuScenes dataset and transfer it to several downstream tasks on nuScenes, SemanticKITTI, and KITTI datasets for evaluation. Extensive experimental results show that our method achieves consistent improvements over the baseline trained from scratch and significantly out- performs the existing schemes. Codes are available at git@github.com:zhangsha1024/HVDistill.git.
- Abstract(参考訳): 本稿では,HVDistillと呼ばれるハイブリッドビューベースの知識蒸留フレームワークについて,教師なしマン・オタクで事前学習したイメージ・ネットワークを用いて,ポイント・クラウド・ニューラルネットの特徴学習を指導する。
RGBカメラとLiDARセンサの幾何学的関係を利用して、画像平面ビューと鳥眼ビューの両方に基づく2つのモードの対応性を確立し、表現学習を容易にする。
特に、画像平面対応は、点雲を投影することで単純にオブ・テイニングが可能であり、鳥視対応は、投影された点雲の監督によって予測された深さで3次元空間に画素を持ち上げることで達成できる。
画像教師ネットワークは、画像平面ビューからリッチなセマンティクスを提供し、一方、鳥眼ビューから幾何学的情報を取得する。
実際、この2つのビューのイメージ特徴は、互いに自然に合成され、同時に、クラウドスタブデントネットワークの学習した特徴表現を改善することができる。
さらに、自己教師付き2Dネットワークでは、HVDistillは2Dアノテーションも3Dアノテーションも必要としない。
我々は、nuScenesデータセット上のモデルを事前トレーニングし、評価のためにnuScenes、SemanticKITTI、KITTIデータセット上の下流タスクに転送する。
その結果,本手法はスクラッチからトレーニングしたベースラインよりも一貫した改善を実現し,既存のスキームをはるかに上回っていることがわかった。
コードはgit@github.com:zhangsha1024/HVDistill.gitで入手できる。
関連論文リスト
- Self-supervised Learning of LiDAR 3D Point Clouds via 2D-3D Neural Calibration [107.61458720202984]
本稿では,自律走行シーンにおける3次元知覚を高めるための,新しい自己教師型学習フレームワークを提案する。
本稿では,画像とポイントクラウドデータの領域ギャップを埋めるために,学習可能な変換アライメントを提案する。
我々は剛性ポーズを推定するために密度の高い2D-3D対応を確立する。
論文 参考訳(メタデータ) (2024-01-23T02:41:06Z) - Cross-Modal Information-Guided Network using Contrastive Learning for
Point Cloud Registration [17.420425069785946]
本稿では,ポイントクラウド登録のための新しいCross-Modal Information-Guided Network(CMIGNet)を提案する。
まず,点雲から投影された画像を取り込んで,アテンション機構を用いてモーダルな特徴を融合する。
コントラスト学習戦略は2つあり、すなわち、コントラスト学習とクロスモーダルコントラスト学習が重なり合う。
論文 参考訳(メタデータ) (2023-11-02T12:56:47Z) - Take-A-Photo: 3D-to-2D Generative Pre-training of Point Cloud Models [97.58685709663287]
生成事前学習は、2次元視覚における基本モデルの性能を高めることができる。
3Dビジョンでは、トランスフォーマーベースのバックボーンの過度な信頼性と、点雲の秩序のない性質により、生成前のトレーニングのさらなる発展が制限されている。
本稿では,任意の点クラウドモデルに適用可能な3D-to-2D生成事前学習法を提案する。
論文 参考訳(メタデータ) (2023-07-27T16:07:03Z) - Ponder: Point Cloud Pre-training via Neural Rendering [93.34522605321514]
本稿では,識別可能なニューラルエンコーダによる点雲表現の自己教師型学習手法を提案する。
学習したポイントクラウドは、3D検出やセグメンテーションといったハイレベルなレンダリングタスクだけでなく、3D再構成や画像レンダリングといった低レベルなタスクを含む、さまざまなダウンストリームタスクに簡単に統合できる。
論文 参考訳(メタデータ) (2022-12-31T08:58:39Z) - PointVST: Self-Supervised Pre-training for 3D Point Clouds via
View-Specific Point-to-Image Translation [64.858505571083]
本稿では,翻訳型事前学習フレームワークであるPointVSTを提案する。
3Dポイントクラウドからそれに対応する多様な2Dレンダリング画像へのクロスモーダル変換という,新たな教師付きプレテキストタスクによって駆動される。
論文 参考訳(メタデータ) (2022-12-29T07:03:29Z) - 3D Point Cloud Pre-training with Knowledge Distillation from 2D Images [128.40422211090078]
本稿では,2次元表現学習モデルから直接知識を取得するために,3次元ポイントクラウド事前学習モデルの知識蒸留手法を提案する。
具体的には、3Dポイントクラウドから概念特徴を抽出し、2D画像からの意味情報と比較するクロスアテンション機構を提案する。
このスキームでは,2次元教師モデルに含まれるリッチな情報から,クラウド事前学習モデルを直接学習する。
論文 参考訳(メタデータ) (2022-12-17T23:21:04Z) - CrossPoint: Self-Supervised Cross-Modal Contrastive Learning for 3D
Point Cloud Understanding [2.8661021832561757]
CrossPointは、転送可能な3Dポイントクラウド表現を学習するための、単純なクロスモーダルコントラスト学習アプローチである。
提案手法は,従来の教師なし学習手法よりも,3次元オブジェクト分類やセグメンテーションなど,さまざまな下流タスクにおいて優れていた。
論文 参考訳(メタデータ) (2022-03-01T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。