論文の概要: milliMamba: Specular-Aware Human Pose Estimation via Dual mmWave Radar with Multi-Frame Mamba Fusion
- arxiv url: http://arxiv.org/abs/2512.20128v1
- Date: Tue, 23 Dec 2025 07:40:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.787483
- Title: milliMamba: Specular-Aware Human Pose Estimation via Dual mmWave Radar with Multi-Frame Mamba Fusion
- Title(参考訳): milliMamba:多フレームマンバ核融合を用いたデュアルミリ波レーダによる人体電位推定
- Authors: Niraj Prakash Kini, Shiau-Rung Tsai, Guan-Hsun Lin, Wen-Hsiao Peng, Ching-Wen Ma, Jenq-Neng Hwang,
- Abstract要約: 本稿では,レーダを用いた2次元人間のポーズ推定フレームワークを提案する。
我々はCross-View Fusion Mambaを使って、長いシーケンスから効率的に特徴を抽出する。
また、トレーニング中に標準的なキーポイントロスと並行してベロシティロスを組み込む。
- 参考スコア(独自算出の注目度): 24.89937570181235
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Millimeter-wave radar offers a privacy-preserving and lighting-invariant alternative to RGB sensors for Human Pose Estimation (HPE) task. However, the radar signals are often sparse due to specular reflection, making the extraction of robust features from radar signals highly challenging. To address this, we present milliMamba, a radar-based 2D human pose estimation framework that jointly models spatio-temporal dependencies across both the feature extraction and decoding stages. Specifically, given the high dimensionality of radar inputs, we adopt a Cross-View Fusion Mamba encoder to efficiently extract spatio-temporal features from longer sequences with linear complexity. A Spatio-Temporal-Cross Attention decoder then predicts joint coordinates across multiple frames. Together, this spatio-temporal modeling pipeline enables the model to leverage contextual cues from neighboring frames and joints to infer missing joints caused by specular reflections. To reinforce motion smoothness, we incorporate a velocity loss alongside the standard keypoint loss during training. Experiments on the TransHuPR and HuPR datasets demonstrate that our method achieves significant performance improvements, exceeding the baselines by 11.0 AP and 14.6 AP, respectively, while maintaining reasonable complexity. Code: https://github.com/NYCU-MAPL/milliMamba
- Abstract(参考訳): ミリ波レーダーは、HPE(Human Pose Estimation)タスクのためのRGBセンサーに代わるプライバシー保護と照明の不変性を提供する。
しかし、レーダー信号はしばしばスペクトル反射によって疎外され、レーダー信号からの堅牢な特徴の抽出は非常に困難である。
この問題を解決するために,レーダベースの2次元ポーズ推定フレームワークである MilliMamba を,特徴抽出と復号段階の両方で時空間依存性を共同でモデル化する。
具体的には、レーダ入力の高次元性を考えると、線形複雑性を持つ長い列から時空間的特徴を効率的に抽出するクロスビュー・フュージョン・マンバエンコーダを採用する。
Spatio-Temporal-Cross Attention Decoderは複数のフレームにまたがる共同座標を予測する。
この時空間モデリングパイプラインは、隣接するフレームや関節からの文脈的手がかりを利用して、スペクトル反射による欠落した関節を推測することを可能にする。
運動の平滑性を高めるため、トレーニング中の標準キーポイント損失と並行して速度損失を組み込む。
TransHuPRデータセットとHuPRデータセットの実験では,提案手法がそれぞれ11.0 APと14.6 APのベースラインを超え,精度の高い複雑性を維持しながら,大幅な性能向上を実現していることが示された。
コード:https://github.com/NYCU-MAPL/milliMamba
関連論文リスト
- RadarGen: Automotive Radar Point Cloud Generation from Cameras [64.69976771710057]
マルチビューカメラ画像からリアルな自動車用レーダー点雲を合成するための拡散モデルRadarGenを提案する。
RadarGenは、鳥の目視でレーダー計測を表現することで、レーダ領域への効率的な画像遅延拡散を適応する。
本稿では,RadarGenが特徴的レーダ計測分布を捕捉し,実データに基づいて学習した知覚モデルとのギャップを小さくすることを示す。
論文 参考訳(メタデータ) (2025-12-19T18:57:33Z) - TacoDepth: Towards Efficient Radar-Camera Depth Estimation with One-stage Fusion [54.46664104437454]
一段核融合を用いた効率的かつ正確なレーダ・カメラ深度推定モデルであるTacoDepthを提案する。
具体的には、グラフベースのRadar構造抽出器とピラミッドベースのRadar融合モジュールを設計する。
従来の最先端のアプローチと比較して、TacoDepthは深さ精度と処理速度を12.8%、91.8%改善している。
論文 参考訳(メタデータ) (2025-04-16T05:25:04Z) - RadarLLM: Empowering Large Language Models to Understand Human Motion from Millimeter-wave Point Cloud Sequence [10.115852646162843]
本稿では、ミリ波レーダをセンシングモードとして用いた人間の理解に大規模言語モデル(LLM)を利用する最初のフレームワークであるRadar-LLMを提案する。
データ不足に対処するために、モーションテキストデータセットからリアルなレーダテキストペアを生成する物理対応パイプライン合成を導入する。
Radar-LLMは、合成および実世界のベンチマークの両方で最先端のパフォーマンスを実現し、ミリ波信号の自然言語記述への正確な変換を可能にする。
論文 参考訳(メタデータ) (2025-04-14T04:18:25Z) - RobuRCDet: Enhancing Robustness of Radar-Camera Fusion in Bird's Eye View for 3D Object Detection [68.99784784185019]
暗い照明や悪天候はカメラの性能を低下させる。
レーダーは騒音と位置のあいまいさに悩まされる。
本稿では,BEVの頑健な物体検出モデルであるRobuRCDetを提案する。
論文 参考訳(メタデータ) (2025-02-18T17:17:38Z) - MambaST: A Plug-and-Play Cross-Spectral Spatial-Temporal Fuser for Efficient Pedestrian Detection [0.5898893619901381]
本稿では,効率的な歩行者検出のためのプラグ・アンド・プレイ型時空間融合パイプラインであるMambaSTを提案する。
暗黒または低照度条件下でRGBカメラを用いて正確な検出を行うことは困難である。
また,提案モデルにより,小規模歩行者検出の性能も向上する。
論文 参考訳(メタデータ) (2024-08-02T06:20:48Z) - G3R: Generating Rich and Fine-grained mmWave Radar Data from 2D Videos for Generalized Gesture Recognition [19.95047010486547]
我々は、リッチな2Dビデオを利用してリアルなレーダデータを生成するソフトウェアパイプラインを開発した。
ユーザジェスチャの多彩できめ細かな反射特性をシミュレートする課題に対処する。
我々は、公開データソースと自己収集現実レーダデータからの2Dビデオを用いて、G3Rを実装し、評価する。
論文 参考訳(メタデータ) (2024-04-23T11:22:59Z) - Echoes Beyond Points: Unleashing the Power of Raw Radar Data in
Multi-modality Fusion [74.84019379368807]
本稿では,既存のレーダ信号処理パイプラインをスキップするEchoFusionという新しい手法を提案する。
具体的には、まずBird's Eye View (BEV)クエリを生成し、次にレーダーから他のセンサーとフューズに対応するスペクトル特徴を取ります。
論文 参考訳(メタデータ) (2023-07-31T09:53:50Z) - HuPR: A Benchmark for Human Pose Estimation Using Millimeter Wave Radar [30.51398364813315]
本稿では,ミリ波レーダを用いた人間のポーズ推定ベンチマーク「Human Pose with Millimeter Wave Radar (HuPR)」を紹介する。
このデータセットは、レーダに基づく人間のポーズ推定のクロスモダリティトレーニングのために、クロスキャリブレーションされたmmWaveレーダセンサとモノクラーRGBカメラを用いて作成される。
論文 参考訳(メタデータ) (2022-10-22T22:28:40Z) - RadarNet: Exploiting Radar for Robust Perception of Dynamic Objects [73.80316195652493]
我々は、自動運転車の文脈における認識のためにRadarを利用する問題に取り組む。
我々は、LiDARとRadarの両方のセンサーを知覚に利用した新しいソリューションを提案する。
RadarNetと呼ばれる我々のアプローチは、ボクセルベースの早期核融合と注意に基づく後期核融合を特徴としている。
論文 参考訳(メタデータ) (2020-07-28T17:15:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。