論文の概要: S3PT: Scene Semantics and Structure Guided Clustering to Boost Self-Supervised Pre-Training for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2410.23085v2
- Date: Mon, 04 Nov 2024 10:01:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:49:41.259961
- Title: S3PT: Scene Semantics and Structure Guided Clustering to Boost Self-Supervised Pre-Training for Autonomous Driving
- Title(参考訳): S3PT: 自動運転のための自己監督型事前訓練を促進するためのシーンセマンティックスと構造ガイドクラスタリング
- Authors: Maciej K. Wozniak, Hariprasath Govindarajan, Marvin Klingner, Camille Maurice, B Ravi Kiran, Senthil Yogamani,
- Abstract要約: そこで本稿では,S3PTによるシーンセマンティクスと構造案内クラスタリングを提案する。
まず、セマンティックな分布一貫したクラスタリングを取り入れて、オートバイや動物のような稀なクラスをよりよく表現できるようにします。
第2に,広い背景領域から歩行者や交通標識などの小さな物体まで,不均衡で多様な物体の大きさを扱うために,一貫した空間クラスタリングを導入する。
第3に,シーンの幾何学的情報に基づいて学習を規則化するための深度誘導空間クラスタリングを提案する。
- 参考スコア(独自算出の注目度): 12.406655155106424
- License:
- Abstract: Recent self-supervised clustering-based pre-training techniques like DINO and Cribo have shown impressive results for downstream detection and segmentation tasks. However, real-world applications such as autonomous driving face challenges with imbalanced object class and size distributions and complex scene geometries. In this paper, we propose S3PT a novel scene semantics and structure guided clustering to provide more scene-consistent objectives for self-supervised training. Specifically, our contributions are threefold: First, we incorporate semantic distribution consistent clustering to encourage better representation of rare classes such as motorcycles or animals. Second, we introduce object diversity consistent spatial clustering, to handle imbalanced and diverse object sizes, ranging from large background areas to small objects such as pedestrians and traffic signs. Third, we propose a depth-guided spatial clustering to regularize learning based on geometric information of the scene, thus further refining region separation on the feature level. Our learned representations significantly improve performance in downstream semantic segmentation and 3D object detection tasks on the nuScenes, nuImages, and Cityscapes datasets and show promising domain translation properties.
- Abstract(参考訳): 最近のDINOやCriboのような自己監督型クラスタリングベースの事前トレーニング技術は、下流検出とセグメント化タスクに素晴らしい結果をもたらしている。
しかし、自律運転のような現実の応用は、不均衡なオブジェクトクラスとサイズ分布と複雑なシーンジオメトリによる課題に直面している。
本稿では,S3PTによるシーンセマンティクスと構造案内クラスタリングを提案する。
まず、セマンティックな分布一貫したクラスタリングを取り入れて、オートバイや動物のような稀なクラスをよりよく表現できるようにします。
第2に,広い背景領域から歩行者や交通標識などの小さな物体まで,不均衡で多様な物体の大きさを扱うために,一貫した空間クラスタリングを導入する。
第3に,シーンの幾何学的情報に基づいて学習を規則化するための深度誘導空間クラスタリングを提案する。
学習した表現は, nuScenes, nuImages, Cityscapesデータセット上での下流セマンティックセグメンテーションと3次元オブジェクト検出タスクのパフォーマンスを著しく向上させ, 将来性のあるドメイン翻訳特性を示す。
関連論文リスト
- Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Semi-Weakly Supervised Object Kinematic Motion Prediction [56.282759127180306]
3Dオブジェクトが与えられた場合、運動予測は移動部と対応する運動パラメータを識別することを目的としている。
階層的部分分割と移動部パラメータのマップを学習するグラフニューラルネットワークを提案する。
ネットワーク予測は、擬似ラベル付き移動情報を持つ大規模な3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2023-03-31T02:37:36Z) - UniVIP: A Unified Framework for Self-Supervised Visual Pre-training [50.87603616476038]
単一中心オブジェクトまたは非調和データセット上で,汎用的な視覚表現を学習するための,新しい自己教師型フレームワークを提案する。
大規模実験により、非高調波COCOで事前訓練されたUniVIPは、最先端の転送性能を実現することが示された。
また、ImageNetのような単一中心オブジェクトのデータセットを利用でき、線形探索において同じ事前学習エポックでBYOLを2.5%上回る。
論文 参考訳(メタデータ) (2022-03-14T10:04:04Z) - Unsupervised Image Segmentation by Mutual Information Maximization and
Adversarial Regularization [7.165364364478119]
InMARS(Information Maximization and Adrial Regularization)と呼ばれる新しい教師なしセマンティックセマンティックセマンティクス手法を提案する。
シーンを知覚群に解析する人間の知覚に触発され、提案手法はまず、入力画像を意味のある領域(スーパーピクセルとも呼ばれる)に分割する。
次に、相互情報最大化(Multual-Information-Maximization)と、それらの領域を意味論的に意味のあるクラスにクラスタ化するための敵対的トレーニング戦略を利用する。
提案手法は2つの非教師付きセマンティックセグメンテーションデータセット上での最先端性能を実現することを実証した。
論文 参考訳(メタデータ) (2021-07-01T18:36:27Z) - Three Ways to Improve Semantic Segmentation with Self-Supervised Depth
Estimation [90.87105131054419]
ラベルなし画像列からの自己教師付き単眼深度推定により強化された半教師付きセマンティックセマンティックセマンティックセマンティクスのフレームワークを提案する。
提案されたモデルをCityscapesデータセット上で検証する。
論文 参考訳(メタデータ) (2020-12-19T21:18:03Z) - PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image
Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。
我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文 参考訳(メタデータ) (2020-11-25T11:03:11Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z) - Spatial Semantic Embedding Network: Fast 3D Instance Segmentation with
Deep Metric Learning [5.699350798684963]
ディープラーニングを用いた3次元インスタンスセグメンテーションのための,単純かつ効率的なアルゴリズムを提案する。
大規模シーンからの高レベルのインテリジェントなタスクに対して、3Dインスタンスセグメンテーションはオブジェクトの個々のインスタンスを認識する。
我々は,ScanNet 3D インスタンス分割ベンチマークにおいて,我々のアルゴリズムの最先端性能をAPスコアで示す。
論文 参考訳(メタデータ) (2020-07-07T02:17:44Z) - Semantically-Guided Representation Learning for Self-Supervised
Monocular Depth [40.49380547487908]
本稿では,自己教師付き表現学習を指導するために,事前訓練型セマンティックセマンティック・セマンティクス・ネットワークを利用した新しいアーキテクチャを提案する。
本手法は,全画素,細粒度細部,意味カテゴリーごとの自己教師型単眼深度予測のための技術の現状を改善した。
論文 参考訳(メタデータ) (2020-02-27T18:40:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。