論文の概要: HiLoTs: High-Low Temporal Sensitive Representation Learning for Semi-Supervised LiDAR Segmentation in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2503.17752v1
- Date: Sat, 22 Mar 2025 12:29:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:36:47.126228
- Title: HiLoTs: High-Low Temporal Sensitive Representation Learning for Semi-Supervised LiDAR Segmentation in Autonomous Driving
- Title(参考訳): HiLoTs: 自動運転における半教師付きLiDARセグメンテーションのための高次時間感性表現学習
- Authors: R. D. Lin, Pengcheng Weng, Yinqiao Wang, Han Ding, Jinsong Han, Fei Wang,
- Abstract要約: 連続LiDARフレームから高時間感度および低時間感度表現を学習するHiLoTを提案する。
その結果,提案したHiLoTsは最先端の半教師付き手法よりも優れていた。
- 参考スコア(独自算出の注目度): 9.941013804343477
- License:
- Abstract: LiDAR point cloud semantic segmentation plays a crucial role in autonomous driving. In recent years, semi-supervised methods have gained popularity due to their significant reduction in annotation labor and time costs. Current semi-supervised methods typically focus on point cloud spatial distribution or consider short-term temporal representations, e.g., only two adjacent frames, often overlooking the rich long-term temporal properties inherent in autonomous driving scenarios. In driving experience, we observe that nearby objects, such as roads and vehicles, remain stable while driving, whereas distant objects exhibit greater variability in category and shape. This natural phenomenon is also captured by LiDAR, which reflects lower temporal sensitivity for nearby objects and higher sensitivity for distant ones. To leverage these characteristics, we propose HiLoTs, which learns high-temporal sensitivity and low-temporal sensitivity representations from continuous LiDAR frames. These representations are further enhanced and fused using a cross-attention mechanism. Additionally, we employ a teacher-student framework to align the representations learned by the labeled and unlabeled branches, effectively utilizing the large amounts of unlabeled data. Experimental results on the SemanticKITTI and nuScenes datasets demonstrate that our proposed HiLoTs outperforms state-of-the-art semi-supervised methods, and achieves performance close to LiDAR+Camera multimodal approaches. Code is available on https://github.com/rdlin118/HiLoTs
- Abstract(参考訳): LiDARポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
近年,アノテーションの労力と時間的コストの大幅な削減により,半教師付き手法が普及している。
現在の半教師付き手法は、通常、点雲の空間分布に焦点を当てたり、短期の時間的表現(例えば、隣接する2つのフレームのみ)を考える。
運転経験では,道路や車両などの近傍の物体が運転中に安定に保たれるのに対して,遠方の物体はカテゴリーや形状において大きなばらつきを示す。
この自然現象はLiDARでも捉えられており、近くの物体に対する時間感度が低く、遠くの物体に対する感度も高い。
これらの特徴を活用するために,連続LiDARフレームから高時間感度および低時間感度表現を学習するHiLoTを提案する。
これらの表現はさらに強化され、クロスアテンション機構を用いて融合される。
さらに,ラベル付きおよびラベルなしのブランチが学習した表現を整列するために,教師学生の枠組みを用いて,大量のラベルなしデータを効果的に活用する。
SemanticKITTIとnuScenesデータセットの実験結果から,提案したHiLoTsは最先端の半教師付き手法より優れており,LiDAR+Cameraマルチモーダルアプローチに近い性能が得られることが示された。
コードはhttps://github.com/rdlin118/HiLoTsで入手できる。
関連論文リスト
- Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - TASeg: Temporal Aggregation Network for LiDAR Semantic Segmentation [80.13343299606146]
そこで本稿では, 時系列LiDARアグリゲーション・蒸留(TLAD)アルゴリズムを提案する。
時間画像のフル活用を目的として,カメラFOVを大幅に拡張できるTIAFモジュールを設計した。
また,静的移動スイッチ拡張(SMSA)アルゴリズムを開発し,時間的情報を利用してオブジェクトの動作状態を自由に切り替える。
論文 参考訳(メタデータ) (2024-07-13T03:00:16Z) - Self-Supervised Class-Agnostic Motion Prediction with Spatial and Temporal Consistency Regularizations [53.797896854533384]
クラスに依存しない動き予測法は点雲全体の動きを直接予測する。
既存のほとんどのメソッドは、完全に教師付き学習に依存しているが、ポイントクラウドデータの手作業によるラベル付けは、手間と時間を要する。
3つの簡単な空間的・時間的正則化損失を導入し,自己指導型学習プロセスの効率化を図る。
論文 参考訳(メタデータ) (2024-03-20T02:58:45Z) - Self-Supervised Multi-Object Tracking For Autonomous Driving From
Consistency Across Timescales [53.55369862746357]
自己管理型マルチオブジェクトトラッカーは、生のドメイン固有データから学習できるという大きな可能性を秘めている。
しかし、その再識別精度は、監督対象よりも低い。
本稿では,複数の連続フレームから再同定特徴を自己教師付きで学習できる学習目標を提案する。
論文 参考訳(メタデータ) (2023-04-25T20:47:29Z) - CARNet: A Dynamic Autoencoder for Learning Latent Dynamics in Autonomous
Driving Tasks [11.489187712465325]
自律運転システムは、世界の抽象的な記述を形成するために、様々なセンサから収集した情報を効果的に活用すべきである。
オートエンコーダのようなディープラーニングモデルは、受信データのストリームからコンパクトな潜在表現を学習できるため、その目的のために使用できる。
この研究は、自動エンコーダとリカレントニューラルネットワークを組み合わせて現在の潜伏表現を学習する、複合dynAmicautoencodeRネットワークアーキテクチャであるCARNetを提案する。
論文 参考訳(メタデータ) (2022-05-18T04:15:42Z) - Stochastic Coherence Over Attention Trajectory For Continuous Learning
In Video Streams [64.82800502603138]
本稿では,映像ストリーム中のピクセルワイズ表現を段階的かつ自律的に開発するための,ニューラルネットワークに基づく新しいアプローチを提案する。
提案手法は, 参加者の入場地を観察することで, エージェントが学習できる, 人間の様の注意機構に基づく。
実験では,3次元仮想環境を利用して,映像ストリームを観察することで,エージェントが物体の識別を学べることを示す。
論文 参考訳(メタデータ) (2022-04-26T09:52:31Z) - NEAT: Neural Attention Fields for End-to-End Autonomous Driving [59.60483620730437]
本稿では、模倣学習モデルの効率的な推論を可能にする新しい表現であるNEAT(NEural Attention Field)を提案する。
NEATは、Bird's Eye View (BEV) シーン座標の位置をウェイポイントとセマンティクスにマッピングする連続関数である。
有害な環境条件や挑戦的なシナリオを含む新たな評価環境では、NEATはいくつかの強いベースラインを上回り、特権のあるCARLA専門家と同等の運転スコアを達成している。
論文 参考訳(メタデータ) (2021-09-09T17:55:28Z) - Multi-View Radar Semantic Segmentation [3.2093811507874768]
自動車用レーダーは、周囲の物体の特性を測定する安価なアクティブセンサーである。
レーダー生データのサイズと複雑さのため、シーン理解にはほとんど使われない。
我々は,複数の新しいアーキテクチャとそれに伴う損失を提案し,レンジアングル・ドップラーレーダテンソルの複数の"ビュー"を分析し,意味的にセグメンテーションする。
論文 参考訳(メタデータ) (2021-03-30T09:56:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。