論文の概要: Fine-grained Image-to-LiDAR Contrastive Distillation with Visual Foundation Models
- arxiv url: http://arxiv.org/abs/2405.14271v2
- Date: Thu, 17 Oct 2024 11:06:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:16:18.128513
- Title: Fine-grained Image-to-LiDAR Contrastive Distillation with Visual Foundation Models
- Title(参考訳): ビジュアルファンデーションモデルを用いた微細粒度-LiDARコントラスト蒸留
- Authors: Yifan Zhang, Junhui Hou,
- Abstract要約: Visual Foundation Models (VFM) は、3D表現学習を強化するために使用される。
VFMは、弱制御された画素間コントラスト蒸留のためのセマンティックラベルを生成する。
我々は,空間分布とカテゴリー周波数の不均衡に対応するために,点のサンプリング確率を適応させる。
- 参考スコア(独自算出の注目度): 55.99654128127689
- License:
- Abstract: Contrastive image-to-LiDAR knowledge transfer, commonly used for learning 3D representations with synchronized images and point clouds, often faces a self-conflict dilemma. This issue arises as contrastive losses unintentionally dissociate features of unmatched points and pixels that share semantic labels, compromising the integrity of learned representations. To overcome this, we harness Visual Foundation Models (VFMs), which have revolutionized the acquisition of pixel-level semantics, to enhance 3D representation learning. Specifically, we utilize off-the-shelf VFMs to generate semantic labels for weakly-supervised pixel-to-point contrastive distillation. Additionally, we employ von Mises-Fisher distributions to structure the feature space, ensuring semantic embeddings within the same class remain consistent across varying inputs. Furthermore, we adapt sampling probabilities of points to address imbalances in spatial distribution and category frequency, promoting comprehensive and balanced learning. Extensive experiments demonstrate that our approach mitigates the challenges posed by traditional methods and consistently surpasses existing image-to-LiDAR contrastive distillation methods in downstream tasks. The source code is available at \href{https://github.com/Eaphan/OLIVINE.}{\color{black}https://github.com/Eaphan/OLIVINE}.
- Abstract(参考訳): 対照的に、画像とLiDARの知識伝達は、一般的に同期された画像と点雲による3D表現の学習に使われ、しばしば自己競合ジレンマに直面している。
この問題は、意味的ラベルを共有する未整合点や画素の特徴を意図せず解離させ、学習された表現の整合性を損なうことで生じる。
これを解決するために,画素レベルのセマンティクスの獲得に革命をもたらしたVisual Foundation Models (VFMs) を用いて,3次元表現学習を強化する。
具体的には,市販のVFMを用いて,弱教師付き画素対ポイントコントラスト蒸留のためのセマンティックラベルを生成する。
さらに、von Mises-Fisher分布を用いて特徴空間を構造化し、同じクラス内のセマンティックな埋め込みが様々な入力に対して一貫していることを保証する。
さらに,空間分布とカテゴリー周波数の不均衡に対処する点のサンプリング確率を適応させ,包括的かつバランスの取れた学習を促進する。
大規模な実験により, 従来の手法による課題を緩和し, 下流タスクにおける既存の画像-LiDARコントラスト蒸留法を一貫して超越していることが実証された。
ソースコードは \href{https://github.com/Eaphan/OLIVINE で公開されている。
}{\color{black}https://github.com/Eaphan/OLIVINE}
関連論文リスト
- Distractors-Immune Representation Learning with Cross-modal Contrastive Regularization for Change Captioning [71.14084801851381]
変更キャプションは、類似した画像間のセマンティックな変化を簡潔に記述することを目的としている。
既存のほとんどの手法は、それらの違いを直接キャプチャし、エラーを起こしやすい特徴を得るリスクを負う。
本稿では,2つの画像表現の対応するチャネルを関連づけるイントラクタ免疫表現学習ネットワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T13:00:33Z) - Exploring the Untouched Sweeps for Conflict-Aware 3D Segmentation Pretraining [41.145598142457686]
LiDARカメラによる3D画像の事前学習は、3D知覚タスクと関連する応用に有意な可能性を示唆している。
未探索フレームからLiDAR-画像ペアを精巧に選択するための,ビジョン・ファウンデーション・モデル駆動型サンプル探索モジュールを提案する。
我々の手法は、既存の最先端の事前訓練フレームワークを3つの主要な公道走行データセットで一貫して上回っている。
論文 参考訳(メタデータ) (2024-07-10T08:46:29Z) - Zero-Shot Learning by Harnessing Adversarial Samples [52.09717785644816]
本稿では,HAS(Harnessing Adversarial Samples)によるZSL(Zero-Shot Learning)アプローチを提案する。
HASは3つの重要な側面を考慮に入れた敵の訓練を通じてZSLを前進させる。
本稿では,ZSLと一般化ゼロショット学習(GZSL)の両シナリオにおいて,敵対的サンプルアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-08-01T06:19:13Z) - Multi-cropping Contrastive Learning and Domain Consistency for
Unsupervised Image-to-Image Translation [5.562419999563734]
マルチクロップ型コントラスト学習とドメイン整合性に基づく新しい教師なし画像から画像への翻訳フレームワーク MCDUT を提案する。
多くの画像と画像の翻訳タスクにおいて,本手法は最先端の結果を達成し,その利点は比較実験とアブレーション研究によって証明されている。
論文 参考訳(メタデータ) (2023-04-24T16:20:28Z) - Self-Supervised Image-to-Point Distillation via Semantically Tolerant
Contrastive Loss [18.485918870427327]
本稿では, 画像領域と負の画像領域間の意味的距離を考慮に入れた, 意味論的に寛容な画像間のコントラスト損失を提案する。
提案手法は,最先端の2D-to-3D表現学習フレームワークを多種多様な自己教師付き事前学習モデルで一貫した性能を発揮する。
論文 参考訳(メタデータ) (2023-01-12T19:58:54Z) - Unsupervised Feature Clustering Improves Contrastive Representation
Learning for Medical Image Segmentation [18.75543045234889]
自己監督型インスタンス識別は、特徴表現を学習し、限られた医用画像アノテーションに対処する効果的なコントラスト的前提課題である。
本稿では,教師なし特徴クラスタリングを用いた自己教師付きコントラスト学習手法を提案する。
本手法は,これらの課題に対して,最先端の自己監督型コントラスト技術より優れる。
論文 参考訳(メタデータ) (2022-11-15T22:54:29Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z) - Un-Mix: Rethinking Image Mixtures for Unsupervised Visual Representation
Learning [108.999497144296]
近年の先進的な教師なし学習手法では,同じ画像から2つの「ビュー」を学習表現として比較するために,サイムズ様の枠組みを用いている。
この研究は、教師なし学習においてラベル空間上の距離の概念を巻き込み、正対と負対のソフトな類似度をモデルに認識させることを目的としている。
その概念的単純さにもかかわらず、この解 -- 教師なし画像混合(Un-Mix)により、変換された入力と対応する新しいラベル空間からより微妙でより堅牢で一般化された表現を学習できることを実証的に示す。
論文 参考訳(メタデータ) (2020-03-11T17:59:04Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。