論文の概要: Self-Supervised Image-to-Point Distillation via Semantically Tolerant
Contrastive Loss
- arxiv url: http://arxiv.org/abs/2301.05709v2
- Date: Fri, 24 Mar 2023 15:53:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 17:44:10.862932
- Title: Self-Supervised Image-to-Point Distillation via Semantically Tolerant
Contrastive Loss
- Title(参考訳): セマンティック・トレラント・コントラスト・ロスによる自己監督型イメージ・ツー・ポイント蒸留
- Authors: Anas Mahmoud, Jordan S. K. Hu, Tianshu Kuai, Ali Harakeh, Liam Paull,
and Steven L. Waslander
- Abstract要約: 本稿では, 画像領域と負の画像領域間の意味的距離を考慮に入れた, 意味論的に寛容な画像間のコントラスト損失を提案する。
提案手法は,最先端の2D-to-3D表現学習フレームワークを多種多様な自己教師付き事前学習モデルで一貫した性能を発揮する。
- 参考スコア(独自算出の注目度): 18.485918870427327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An effective framework for learning 3D representations for perception tasks
is distilling rich self-supervised image features via contrastive learning.
However, image-to point representation learning for autonomous driving datasets
faces two main challenges: 1) the abundance of self-similarity, which results
in the contrastive losses pushing away semantically similar point and image
regions and thus disturbing the local semantic structure of the learned
representations, and 2) severe class imbalance as pretraining gets dominated by
over-represented classes. We propose to alleviate the self-similarity problem
through a novel semantically tolerant image-to-point contrastive loss that
takes into consideration the semantic distance between positive and negative
image regions to minimize contrasting semantically similar point and image
regions. Additionally, we address class imbalance by designing a class-agnostic
balanced loss that approximates the degree of class imbalance through an
aggregate sample-to-samples semantic similarity measure. We demonstrate that
our semantically-tolerant contrastive loss with class balancing improves
state-of-the art 2D-to-3D representation learning in all evaluation settings on
3D semantic segmentation. Our method consistently outperforms state-of-the-art
2D-to-3D representation learning frameworks across a wide range of 2D
self-supervised pretrained models.
- Abstract(参考訳): 知覚タスクの3D表現を学習するための効果的なフレームワークは、コントラスト学習を通じて、リッチな自己教師付き画像特徴を抽出することである。
しかし、自律運転データセットのイメージ・ツー・ポイント表現学習は2つの大きな課題に直面している。
1) 自己相似性の豊富さは、意味的に類似した点や画像領域を押し出し、学習した表現の局所的な意味構造を乱す、対照的な損失をもたらす。
2)プリトレーニングとしての厳しいクラス不均衡は,過度に表現されたクラスに支配される。
本稿では,画像領域と画像領域の対比を最小化するために,正と負の領域間の意味距離を考慮した,新しい意味論的に寛容な画像対点コントラスト損失法を提案する。
さらに,クラス不均衡度を,集合的なサンプルとサンプル間のセマンティック類似度によって近似するクラス非均衡損失を設計することで,クラス不均衡に対処する。
クラスバランスによるセマンティック・トレラントなコントラスト損失は,3次元セマンティックセグメンテーションのすべての評価設定において,最先端の2D-to-3D表現学習を改善することを示す。
提案手法は,最先端の2D-to-3D表現学習フレームワークを多種多様な自己教師付き事前学習モデルで一貫した性能を発揮する。
関連論文リスト
- Image-to-Lidar Relational Distillation for Autonomous Driving Data [4.893568782260855]
2Dファウンデーションモデルは、ロバストな表現のため、ダウンストリームの監督をほとんどあるいは全く行わずに、2Dタスクに対処するのに優れています。
2D-to-3D蒸留フレームワークの出現により、これらの機能は3Dモデルに拡張された。
しかし、自律運転データセットのための3D表現の蒸留は、自己相似性、クラス不均衡、ポイントクラウドの分散といった課題を提示している。
そこで本研究では, モーダル内およびクロスモーダル間の制約を強制するリレーショナル蒸留フレームワークを提案し, その結果, 2次元表現の構造を密に捉えた3次元表現が得られた。
論文 参考訳(メタデータ) (2024-09-01T21:26:32Z) - Exploring the Untouched Sweeps for Conflict-Aware 3D Segmentation Pretraining [41.145598142457686]
LiDARカメラによる3D画像の事前学習は、3D知覚タスクと関連する応用に有意な可能性を示唆している。
未探索フレームからLiDAR-画像ペアを精巧に選択するための,ビジョン・ファウンデーション・モデル駆動型サンプル探索モジュールを提案する。
我々の手法は、既存の最先端の事前訓練フレームワークを3つの主要な公道走行データセットで一貫して上回っている。
論文 参考訳(メタデータ) (2024-07-10T08:46:29Z) - Fine-grained Image-to-LiDAR Contrastive Distillation with Visual Foundation Models [55.99654128127689]
Visual Foundation Models (VFM) は、3D表現学習を強化するために使用される。
VFMは、弱制御された画素間コントラスト蒸留のためのセマンティックラベルを生成する。
我々は,空間分布とカテゴリー周波数の不均衡に対応するために,点のサンプリング確率を適応させる。
論文 参考訳(メタデータ) (2024-05-23T07:48:19Z) - Self-supervised Learning of LiDAR 3D Point Clouds via 2D-3D Neural Calibration [107.61458720202984]
本稿では,自律走行シーンにおける3次元知覚を高めるための,新しい自己教師型学習フレームワークを提案する。
本稿では,画像とポイントクラウドデータの領域ギャップを埋めるために,学習可能な変換アライメントを提案する。
我々は剛性ポーズを推定するために密度の高い2D-3D対応を確立する。
論文 参考訳(メタデータ) (2024-01-23T02:41:06Z) - Unsupervised Feature Clustering Improves Contrastive Representation
Learning for Medical Image Segmentation [18.75543045234889]
自己監督型インスタンス識別は、特徴表現を学習し、限られた医用画像アノテーションに対処する効果的なコントラスト的前提課題である。
本稿では,教師なし特徴クラスタリングを用いた自己教師付きコントラスト学習手法を提案する。
本手法は,これらの課題に対して,最先端の自己監督型コントラスト技術より優れる。
論文 参考訳(メタデータ) (2022-11-15T22:54:29Z) - RiCS: A 2D Self-Occlusion Map for Harmonizing Volumetric Objects [68.85305626324694]
カメラ空間における光マーチング (RiCS) は、3次元における前景物体の自己閉塞を2次元の自己閉塞マップに表現する新しい手法である。
表現マップは画像の質を高めるだけでなく,時間的コヒーレントな複雑な影効果をモデル化できることを示す。
論文 参考訳(メタデータ) (2022-05-14T05:35:35Z) - Non-Local Latent Relation Distillation for Self-Adaptive 3D Human Pose
Estimation [63.199549837604444]
3次元ポーズ推定アプローチは、強い(2D/3Dポーズ)または弱い(複数ビューまたは深さ)ペアによる監督の異なる形態を利用する。
我々は3Dポーズ学習を,ラベル付きソースドメインから完全に損なわれないターゲットへのタスク知識の転送を目的とした,自己指導型適応問題として捉えた。
我々は、異なる自己適応設定を評価し、標準ベンチマークで最先端の3Dポーズ推定性能を示す。
論文 参考訳(メタデータ) (2022-04-05T03:52:57Z) - Self-Supervised Image Representation Learning with Geometric Set
Consistency [50.12720780102395]
本稿では,3次元幾何整合性に基づく自己教師付き画像表現学習法を提案する。
具体的には、画像ビュー内の特徴整合性を強化するために、コントラスト学習フレームワークに3次元幾何学的整合性を導入する。
論文 参考訳(メタデータ) (2022-03-29T08:57:33Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。