論文の概要: Weakly Supervised Cross-Modal Learning for 4D Radar Scene Flow Estimation
- arxiv url: http://arxiv.org/abs/2605.18507v2
- Date: Tue, 19 May 2026 10:33:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.580161
- Title: Weakly Supervised Cross-Modal Learning for 4D Radar Scene Flow Estimation
- Title(参考訳): 4次元レーダシーンフロー推定のための弱教師付きクロスモーダル学習
- Authors: Jingyun Fu, Zhiyu Xiang, Na Zhao,
- Abstract要約: 本稿では,弱教師付きレーダシーンフロー学習のためのタスク固有フレームワークを提案する。
市販の2Dトラッキングとセグメンテーションアルゴリズムを利用して、追跡されたインスタンスマスクを取得する。
実世界のView-of-Delftデータセットの実験は、我々の手法が最先端のクロスモーダル監視アプローチを超えることを示した。
- 参考スコア(独自算出の注目度): 10.906975408529895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the difficulty of obtaining ground-truth data for 4D radar scene flow estimation, previous methods typically rely on either self-supervised losses or cross-modal supervision using 3D LiDAR data, 2D images, and odometry. However, self-supervised approaches often yield suboptimal results due to radar's inherently low-fidelity measurements, while existing cross-modal supervised methods introduce complex multi-task architecture and require costly LiDAR sensors to generate pseudo radar scene flow labels from pretrained 3D tracking models. To overcome these limitations, we propose a task-specific iterative framework for weakly supervised radar scene flow learning, using only images and odometry for auxiliary supervision during training. Specially, we establish two novel instance-aware self-supervised losses by exploiting off-the-shelf 2D tracking and segmentation algorithms to obtain tracked instance masks, which are back-projected into 3D space to provide instance-level semantic guidance; for static regions, we integrate vehicle odometry with radar's intrinsic motion cues to construct a rigid static loss. Extensive experiments on the real-world View-of-Delft (VoD) dataset demonstrate that our method not only surpasses state-of-the-art cross-modal supervised approaches that rely on 3D multi-object tracking on dense LiDAR point clouds but also outperforms existing fully supervised scene flow estimation methods. The code is open-sourced at \href{https://github.com/FuJingyun/IterFlow}{https://github.com/FuJingyun/IterFlow}.
- Abstract(参考訳): 4次元レーダシーンフロー推定のための地中構造データを得るのが難しいため、従来の手法は3次元LiDARデータ、2次元画像、およびオドメトリーを用いた自己監督的損失または相互監視のいずれかに依存していた。
しかし、従来のクロスモーダル監視手法は複雑なマルチタスクアーキテクチャを導入し、事前訓練された3D追跡モデルから擬似レーダーシーンフローラベルを生成するために高価なLiDARセンサーを必要とする。
これらの制約を克服するために,訓練中の補助的監視のために画像と計測のみを用いて,弱教師付きレーダシーンフロー学習のためのタスク固有反復フレームワークを提案する。
具体的には,3次元空間にバックプロジェクションされてインスタンスレベルのセマンティックガイダンスを提供するために,オフザシェルフ2次元トラッキングとセグメンテーションアルゴリズムを活用することで,2つの新たなインスタンス認識型自己教師付きロスを確立する。
実世界のビュー・オブ・デルフト(VoD)データセットに対する大規模な実験により、我々の手法は最先端のクロスモーダル監視アプローチを超越するだけでなく、密集したLiDAR点雲上の3次元マルチオブジェクト追跡に依存するだけでなく、既存の完全に教師されたシーンフロー推定手法よりも優れていることが示された。
コードは \href{https://github.com/FuJingyun/IterFlow}{https://github.com/FuJingyun/IterFlow} でオープンソース化されている。
関連論文リスト
- Street Gaussians without 3D Object Tracker [84.89933388445185]
既存のほとんどの方法は、オブジェクトポーズの労働集約的な手動ラベリングに依存している。
本研究では,3次元オブジェクト融合戦略における2次元ディープトラッカーの関連性を利用して,安定なオブジェクト追跡モジュールを提案する。
我々は、軌道誤差を自律的に補正し、見逃した検出を回復する暗黙の特徴空間に、モーションラーニング戦略を導入することで、避けられないトラッキングエラーに対処する。
論文 参考訳(メタデータ) (2024-12-07T05:49:42Z) - LISO: Lidar-only Self-Supervised 3D Object Detection [25.420879730860936]
本稿では,SOTAライダーオブジェクト検出ネットワークを学習するための新しい自己教師手法を提案する。
これはライダー点雲のラベルなし列にのみ作用する。
ボンネット下のSOTA自監督ライダーシーンフローネットワークを利用して、疑似地上真実を生成し、追跡し、反復的に洗練する。
論文 参考訳(メタデータ) (2024-03-11T18:02:52Z) - ODM3D: Alleviating Foreground Sparsity for Semi-Supervised Monocular 3D
Object Detection [15.204935788297226]
ODM3Dフレームワークは、トレーニング中にLiDARドメインの知識を単分子検出器に注入するために、様々なレベルでのクロスモーダルな知識蒸留を必要とする。
既存手法の準最適トレーニングの主要因として,前景の空間空間を同定することにより,LiDAR点に埋め込まれた正確な位置化情報を活用する。
KITTI検証とテストベンチマークの両方で1位にランクインし、教師付きまたは半教師付きである既存のモノクラー手法をはるかに上回っている。
論文 参考訳(メタデータ) (2023-10-28T07:12:09Z) - Robust 3D Object Detection from LiDAR-Radar Point Clouds via Cross-Modal
Feature Augmentation [7.364627166256136]
本稿では,点雲からの3次元物体検出のための新しい枠組みを提案する。
背骨の微細化と幻覚発生を同時に行うために,空間的および特徴的に複数のアライメントを導入する。
View-of-Delftデータセットの実験により,提案手法は,レーダとLiDARの両方のオブジェクト検出において,最先端(SOTA)手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-09-29T15:46:59Z) - Weakly Supervised Monocular 3D Object Detection using Multi-View
Projection and Direction Consistency [78.76508318592552]
モノクロ3Dオブジェクト検出は、その容易なアプリケーションのための自動駆動において、主流のアプローチとなっている。
現在のほとんどの方法は、トレーニングフェーズで使用される真実をラベル付けするために、まだ3Dポイントのクラウドデータに依存しています。
画像にマークされた2次元ラベルだけでモデルを訓練できる,弱教師付きモノクル3次元オブジェクト検出法を提案する。
論文 参考訳(メタデータ) (2023-03-15T15:14:00Z) - Boosting 3D Object Detection by Simulating Multimodality on Point Clouds [51.87740119160152]
本稿では,LiDAR 画像検出器に追従する特徴や応答をシミュレートすることで,単一モダリティ (LiDAR) 3次元物体検出器を高速化する新しい手法を提案する。
このアプローチでは、単一モダリティ検出器をトレーニングする場合のみ、LiDARイメージデータを必要とし、十分にトレーニングされた場合には、推論時にのみLiDARデータが必要である。
nuScenesデータセットの実験結果から,本手法はSOTA LiDARのみの3D検出器よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-30T01:44:30Z) - A Lightweight and Detector-free 3D Single Object Tracker on Point Clouds [50.54083964183614]
生のLiDARスキャンにおける物体の点雲は、通常スパースで不完全であるため、正確な目標固有検出を行うのは簡単ではない。
DMTは、複雑な3D検出器の使用を完全に除去する3Dトラッキングネットワークである。
論文 参考訳(メタデータ) (2022-03-08T17:49:07Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z) - SelfVoxeLO: Self-supervised LiDAR Odometry with Voxel-based Deep Neural
Networks [81.64530401885476]
本稿では,これら2つの課題に対処するために,自己教師型LiDARオドメトリー法(SelfVoxeLO)を提案する。
具体的には、生のLiDARデータを直接処理する3D畳み込みネットワークを提案し、3D幾何パターンをよりよく符号化する特徴を抽出する。
我々は,KITTIとApollo-SouthBayという2つの大規模データセット上での手法の性能を評価する。
論文 参考訳(メタデータ) (2020-10-19T09:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。