論文の概要: Scaling Foundation Models for Radar Scene Understanding
- arxiv url: http://arxiv.org/abs/2511.21105v1
- Date: Wed, 26 Nov 2025 06:41:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.995572
- Title: Scaling Foundation Models for Radar Scene Understanding
- Title(参考訳): レーダーシーン理解のための基礎モデルのスケーリング
- Authors: Pushkal Mishra, Kshitiz Bansal, Dinesh Bharadia,
- Abstract要約: レーダーセンサーは、悪天候、照明、長距離の状況に対して信頼性の高い認識を提供する。
基礎モデルの最近の進歩は、視覚的および言語的理解に変化をもたらしたが、レーダーセンシングとの統合は、ほとんど未解明のままである。
本稿では,空間言語を構造化し,シーンレベルの統一表現を学習するレーダ基礎モデルであるRadarFMを紹介する。
- 参考スコア(独自算出の注目度): 8.23171791313388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Radar sensors provide reliable perception across adverse weather, lighting, and long-range conditions. Recent advances in foundation models have transformed visual and language understanding, yet their integration with radar sensing remains largely underexplored. Existing radar approaches are fragmented and task-specific; each downstream task employs distinct architectures and training objectives, preventing transfer across tasks. In this work, we introduce RadarFM: a radar foundation model that learns unified scene-level representations through structured spatial language supervision. We make two key contributions: (1) a structured caption framework that encodes vehicle distributions in native radar coordinates, and (2) a hash-aware contrastive learning objective that quantifies continuous scene similarity rather than binary matching, enabling fine-grained spatial reasoning. Leveraging the CARLA simulator, we generate large-scale, well-annotated radar datasets across diverse driving scenarios. We also propose localization-aware metrics that assess spatial accuracy beyond traditional detection measures.
- Abstract(参考訳): レーダーセンサーは、悪天候、照明、長距離の状況に対して信頼性の高い認識を提供する。
基礎モデルの最近の進歩は、視覚的および言語的理解に変化をもたらしたが、レーダーセンシングとの統合は、ほとんど未解明のままである。
既存のレーダーアプローチは断片化され、タスク固有であり、各ダウンストリームタスクは異なるアーキテクチャとトレーニング目標を採用し、タスク間の転送を防止する。
本稿では,構造化空間言語によるシーンレベルの統一表現を学習するレーダ基礎モデルであるRadarFMを紹介する。
我々は,(1)ネイティブレーダ座標における車両分布を符号化する構造的キャプションフレームワーク,(2)バイナリマッチングよりも連続的なシーン類似性を定量化し,きめ細かな空間的推論を可能にするハッシュ認識型コントラスト学習の2つの重要な貢献を行う。
CARLAシミュレータを利用すると、様々な運転シナリオにまたがる大規模でよく注釈付けされたレーダーデータセットを生成する。
また,従来の検出基準を超え,空間的精度を評価するローカライズ対応指標を提案する。
関連論文リスト
- Radar Tracker: Moving Instance Tracking in Sparse and Noisy Radar Point Clouds [25.36192517603375]
我々は、シーン解釈を強化するために、スパースレーダポイント雲における移動インスタンス追跡に対処する。
本稿では,時間的オフセット予測を取り入れた学習型レーダトラッカーを提案する。
提案手法は,RadarScenesデータセットの移動インスタンス追跡ベンチマークの性能向上を示す。
論文 参考訳(メタデータ) (2025-07-04T09:57:28Z) - TacoDepth: Towards Efficient Radar-Camera Depth Estimation with One-stage Fusion [54.46664104437454]
一段核融合を用いた効率的かつ正確なレーダ・カメラ深度推定モデルであるTacoDepthを提案する。
具体的には、グラフベースのRadar構造抽出器とピラミッドベースのRadar融合モジュールを設計する。
従来の最先端のアプローチと比較して、TacoDepthは深さ精度と処理速度を12.8%、91.8%改善している。
論文 参考訳(メタデータ) (2025-04-16T05:25:04Z) - RadarLLM: Empowering Large Language Models to Understand Human Motion from Millimeter-wave Point Cloud Sequence [10.115852646162843]
本稿では、ミリ波レーダをセンシングモードとして用いた人間の理解に大規模言語モデル(LLM)を利用する最初のフレームワークであるRadar-LLMを提案する。
データ不足に対処するために、モーションテキストデータセットからリアルなレーダテキストペアを生成する物理対応パイプライン合成を導入する。
Radar-LLMは、合成および実世界のベンチマークの両方で最先端のパフォーマンスを実現し、ミリ波信号の自然言語記述への正確な変換を可能にする。
論文 参考訳(メタデータ) (2025-04-14T04:18:25Z) - Radar Fields: Frequency-Space Neural Scene Representations for FMCW Radar [62.51065633674272]
本稿では,アクティブレーダイメージア用に設計されたニューラルシーン再構成手法であるRadar Fieldsを紹介する。
提案手法では,暗黙的ニューラルジオメトリとリフレクタンスモデルを用いて,暗黙的な物理インフォームドセンサモデルを構築し,生のレーダ測定を直接合成する。
本研究では,密集した車両やインフラを備えた都市景観を含む,多様な屋外シナリオにおける手法の有効性を検証する。
論文 参考訳(メタデータ) (2024-05-07T20:44:48Z) - RaLF: Flow-based Global and Metric Radar Localization in LiDAR Maps [8.625083692154414]
我々は、環境のLiDARマップにレーダースキャンをローカライズするための、新しいディープニューラルネットワークベースのアプローチであるRaLFを提案する。
RaLFは、レーダーとLiDAR機能エンコーダ、グローバルなディスクリプタを生成する場所認識ヘッド、レーダースキャンとマップ間の3DF変換を予測するメートル法ローカライゼーションヘッドで構成されている。
複数の実世界の運転データセットに対する我々のアプローチを広く評価し、RaLFが位置認識とメートル法ローカライゼーションの両方において最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-09-18T15:37:01Z) - Bi-LRFusion: Bi-Directional LiDAR-Radar Fusion for 3D Dynamic Object
Detection [78.59426158981108]
この課題に対処し、動的オブジェクトの3D検出を改善するために、双方向LiDAR-Radar融合フレームワーク、Bi-LRFusionを導入する。
我々はnuScenesとORRデータセットに関する広範な実験を行い、我々のBi-LRFusionが動的オブジェクトを検出するための最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-06-02T10:57:41Z) - Semantic Segmentation of Radar Detections using Convolutions on Point
Clouds [59.45414406974091]
本稿では,レーダ検出を点雲に展開する深層学習手法を提案する。
このアルゴリズムは、距離依存クラスタリングと入力点雲の事前処理により、レーダ固有の特性に適応する。
我々のネットワークは、レーダポイント雲のセマンティックセグメンテーションのタスクにおいて、PointNet++に基づく最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2023-05-22T07:09:35Z) - Multi-View Radar Semantic Segmentation [3.2093811507874768]
自動車用レーダーは、周囲の物体の特性を測定する安価なアクティブセンサーである。
レーダー生データのサイズと複雑さのため、シーン理解にはほとんど使われない。
我々は,複数の新しいアーキテクチャとそれに伴う損失を提案し,レンジアングル・ドップラーレーダテンソルの複数の"ビュー"を分析し,意味的にセグメンテーションする。
論文 参考訳(メタデータ) (2021-03-30T09:56:41Z) - RadarNet: Exploiting Radar for Robust Perception of Dynamic Objects [73.80316195652493]
我々は、自動運転車の文脈における認識のためにRadarを利用する問題に取り組む。
我々は、LiDARとRadarの両方のセンサーを知覚に利用した新しいソリューションを提案する。
RadarNetと呼ばれる我々のアプローチは、ボクセルベースの早期核融合と注意に基づく後期核融合を特徴としている。
論文 参考訳(メタデータ) (2020-07-28T17:15:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。