論文の概要: RadarLLM: Empowering Large Language Models to Understand Human Motion from Millimeter-wave Point Cloud Sequence
- arxiv url: http://arxiv.org/abs/2504.09862v1
- Date: Mon, 14 Apr 2025 04:18:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:50:30.502412
- Title: RadarLLM: Empowering Large Language Models to Understand Human Motion from Millimeter-wave Point Cloud Sequence
- Title(参考訳): RadarLLM:ミリ波点雲列からの人間の動きを理解するための大規模言語モデル
- Authors: Zengyuan Lai, Jiarui Yang, Songpengcheng Xia, Lizhou Lin, Lan Sun, Renwen Wang, Jianran Liu, Qi Wu, Ling Pei,
- Abstract要約: 本稿では、ミリ波レーダをセンシングモードとして用いた人間の理解に大規模言語モデル(LLM)を利用する最初のフレームワークであるRadar-LLMを提案する。
データ不足に対処するために、モーションテキストデータセットからリアルなレーダテキストペアを生成する物理対応パイプライン合成を導入する。
Radar-LLMは、合成および実世界のベンチマークの両方で最先端のパフォーマンスを実現し、ミリ波信号の自然言語記述への正確な変換を可能にする。
- 参考スコア(独自算出の注目度): 10.115852646162843
- License:
- Abstract: Millimeter-wave radar provides a privacy-preserving solution for human motion analysis, yet its sparse point clouds pose significant challenges for semantic understanding. We present Radar-LLM, the first framework that leverages large language models (LLMs) for human motion understanding using millimeter-wave radar as the sensing modality. Our approach introduces two key innovations: (1) a motion-guided radar tokenizer based on our Aggregate VQ-VAE architecture that incorporates deformable body templates and masked trajectory modeling to encode spatiotemporal point clouds into compact semantic tokens, and (2) a radar-aware language model that establishes cross-modal alignment between radar and text in a shared embedding space. To address data scarcity, we introduce a physics-aware synthesis pipeline that generates realistic radar-text pairs from motion-text datasets. Extensive experiments demonstrate that Radar-LLM achieves state-of-the-art performance across both synthetic and real-world benchmarks, enabling accurate translation of millimeter-wave signals to natural language descriptions. This breakthrough facilitates comprehensive motion understanding in privacy-sensitive applications like healthcare and smart homes. We will release the full implementation to support further research on https://inowlzy.github.io/RadarLLM/.
- Abstract(参考訳): ミリ波レーダーは、人間の動作分析のためのプライバシー保護ソリューションを提供するが、そのまばらな点の雲は意味理解に重大な課題をもたらす。
本稿では,ミリ波レーダを用いた人間の動作理解のための大規模言語モデル(LLM)を利用した最初のフレームワークであるRadar-LLMを提案する。
提案手法では, 変形可能なボディーテンプレートとマスク付きトラジェクトリモデリングを組み込んだアグリゲートVQ-VAEアーキテクチャに基づく移動誘導型レーダトークンをコンパクトなセマンティックトークンに符号化し, 2) 共有埋め込み空間におけるレーダとテキスト間のクロスモーダルアライメントを確立するレーダ対応言語モデルを提案する。
データ不足に対処するために、モーションテキストデータセットからリアルなレーダテキストペアを生成する物理対応合成パイプラインを導入する。
大規模な実験により、Radar-LLMは、合成と実世界のベンチマークの両方で最先端のパフォーマンスを実現し、ミリ波信号の自然言語記述への正確な変換を可能にした。
このブレークスルーは、ヘルスケアやスマートホームといったプライバシーに敏感なアプリケーションにおける、包括的なモーション理解を促進する。
我々は、https://inowlzy.github.io/RadarLLM/.io/に関するさらなる研究をサポートするための完全な実装をリリースする。
関連論文リスト
- RobuRCDet: Enhancing Robustness of Radar-Camera Fusion in Bird's Eye View for 3D Object Detection [68.99784784185019]
暗い照明や悪天候はカメラの性能を低下させる。
レーダーは騒音と位置のあいまいさに悩まされる。
本稿では,BEVの頑健な物体検出モデルであるRobuRCDetを提案する。
論文 参考訳(メタデータ) (2025-02-18T17:17:38Z) - Mask-RadarNet: Enhancing Transformer With Spatial-Temporal Semantic Context for Radar Object Detection in Autonomous Driving [11.221694136475554]
本稿では,入力レーダデータから階層的セマンティック特徴をフル活用するMask-RadarNetというモデルを提案する。
Mask-RadarNetは、インターリーブド畳み込みとアテンション操作を組み合わせて、トランスフォーマーベースのモデルで従来のアーキテクチャを置き換える。
計算複雑性が比較的低く、パラメータも少ないため、提案したMask-RadarNetは、自律運転における物体検出における高い認識精度を実現する。
論文 参考訳(メタデータ) (2024-12-20T06:39:40Z) - Talk2Radar: Bridging Natural Language with 4D mmWave Radar for 3D Referring Expression Comprehension [21.598751853520834]
4Dミリ波レーダは従来のレーダよりも密度の高い点雲を提供し、オブジェクトの意味的および物理的特性の両方を知覚する。
3次元視覚接地のためのレーダシーンにおける自然言語による文脈理解の開発を促進するため,最初のデータセットTalk2Radarを構築した。
本研究では,ポイントクラウド上での3次元参照表現のための新しいモデルであるT-RadarNetを提案し,Talk2Radarデータセット上でのステートオフ・ザ・アート(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2024-05-21T14:26:36Z) - Radar Fields: Frequency-Space Neural Scene Representations for FMCW Radar [62.51065633674272]
本稿では,アクティブレーダイメージア用に設計されたニューラルシーン再構成手法であるRadar Fieldsを紹介する。
提案手法では,暗黙的ニューラルジオメトリとリフレクタンスモデルを用いて,暗黙的な物理インフォームドセンサモデルを構築し,生のレーダ測定を直接合成する。
本研究では,密集した車両やインフラを備えた都市景観を含む,多様な屋外シナリオにおける手法の有効性を検証する。
論文 参考訳(メタデータ) (2024-05-07T20:44:48Z) - Diffusion Models for Interferometric Satellite Aperture Radar [73.01013149014865]
確率拡散モデル (Probabilistic Diffusion Models, PDMs) は、最近、非常に有望な生成モデルのクラスとして登場した。
ここでは、PDMを活用して、レーダーベースの衛星画像データセットを複数生成する。
PDMは複雑で現実的な構造を持つ画像を生成することに成功したが、サンプリング時間は依然として問題である。
論文 参考訳(メタデータ) (2023-08-31T16:26:17Z) - Echoes Beyond Points: Unleashing the Power of Raw Radar Data in
Multi-modality Fusion [74.84019379368807]
本稿では,既存のレーダ信号処理パイプラインをスキップするEchoFusionという新しい手法を提案する。
具体的には、まずBird's Eye View (BEV)クエリを生成し、次にレーダーから他のセンサーとフューズに対応するスペクトル特徴を取ります。
論文 参考訳(メタデータ) (2023-07-31T09:53:50Z) - Bi-LRFusion: Bi-Directional LiDAR-Radar Fusion for 3D Dynamic Object
Detection [78.59426158981108]
この課題に対処し、動的オブジェクトの3D検出を改善するために、双方向LiDAR-Radar融合フレームワーク、Bi-LRFusionを導入する。
我々はnuScenesとORRデータセットに関する広範な実験を行い、我々のBi-LRFusionが動的オブジェクトを検出するための最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-06-02T10:57:41Z) - Deep Radar Inverse Sensor Models for Dynamic Occupancy Grid Maps [0.0]
本稿では,レーダー検出から極性測定格子へのマッピングを学習するために,深層学習に基づく逆センサモデル(ISM)を提案する。
私たちのアプローチは、視野の限られたレーダーから極性スキームで1フレームの計測グリッドを学習する最初の方法です。
これにより、ネットワークの再トレーニングや360度センサのカバレッジの必要なしに、1つ以上のレーダーセンサーを柔軟に使用することが可能になります。
論文 参考訳(メタデータ) (2023-05-21T09:09:23Z) - RadarFormer: Lightweight and Accurate Real-Time Radar Object Detection
Model [13.214257841152033]
レーダー中心のデータセットは、レーダー知覚のためのディープラーニング技術の開発にはあまり注目されていない。
本稿では,視覚深層学習における最先端技術を活用したトランスフォーマーモデルRadarFormerを提案する。
また、チャネルチャープ時マージモジュールを導入し、精度を損なうことなく、モデルのサイズと複雑さを10倍以上に削減する。
論文 参考訳(メタデータ) (2023-04-17T17:07:35Z) - RadarNet: Exploiting Radar for Robust Perception of Dynamic Objects [73.80316195652493]
我々は、自動運転車の文脈における認識のためにRadarを利用する問題に取り組む。
我々は、LiDARとRadarの両方のセンサーを知覚に利用した新しいソリューションを提案する。
RadarNetと呼ばれる我々のアプローチは、ボクセルベースの早期核融合と注意に基づく後期核融合を特徴としている。
論文 参考訳(メタデータ) (2020-07-28T17:15:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。