論文の概要: RAPTR: Radar-based 3D Pose Estimation using Transformer
- arxiv url: http://arxiv.org/abs/2511.08387v1
- Date: Wed, 12 Nov 2025 01:56:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.791262
- Title: RAPTR: Radar-based 3D Pose Estimation using Transformer
- Title(参考訳): RAPTR:変換器を用いたレーダ型3次元空間推定
- Authors: Sorachi Kato, Ryoma Yataka, Pu Perry Wang, Pedro Miraldo, Takuya Fujihashi, Petros Boufounos,
- Abstract要約: レーダーによる室内3Dポーズ推定は、通常、きめ細かい3Dキーポイントラベルに依存していた。
tRansformerを用いたRAdar Pose esTimationを3次元BBoxと2次元キーポイントラベルのみを用いて弱監督下で提案する。
- 参考スコア(独自算出の注目度): 24.646708425495472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Radar-based indoor 3D human pose estimation typically relied on fine-grained 3D keypoint labels, which are costly to obtain especially in complex indoor settings involving clutter, occlusions, or multiple people. In this paper, we propose \textbf{RAPTR} (RAdar Pose esTimation using tRansformer) under weak supervision, using only 3D BBox and 2D keypoint labels which are considerably easier and more scalable to collect. Our RAPTR is characterized by a two-stage pose decoder architecture with a pseudo-3D deformable attention to enhance (pose/joint) queries with multi-view radar features: a pose decoder estimates initial 3D poses with a 3D template loss designed to utilize the 3D BBox labels and mitigate depth ambiguities; and a joint decoder refines the initial poses with 2D keypoint labels and a 3D gravity loss. Evaluated on two indoor radar datasets, RAPTR outperforms existing methods, reducing joint position error by $34.3\%$ on HIBER and $76.9\%$ on MMVR. Our implementation is available at https://github.com/merlresearch/radar-pose-transformer.
- Abstract(参考訳): レーダーを用いた屋内3Dポーズ推定は、通常、粒度の細かい3Dキーポイントラベルに頼っている。
本稿では, 3D BBox と 2D キーポイントラベルのみを用いて, 弱い監視下で \textbf{RAPTR} (Radar Pose esTimation using tRansformer) を提案する。
ポーズデコーダは3次元BBoxラベルを利用した3次元テンプレートによる初期3次元ポーズを推定し,奥行きのあいまいさを軽減し,関節デコーダは2次元キーポイントラベルと3次元重力損失で初期ポーズを洗練する。
2つの屋内レーダーデータセットで評価され、RAPTRは既存の手法より優れており、HIBERでは34.3\%、MMVRでは76.9\%の関節位置誤差が減少している。
実装はhttps://github.com/merlresearch/radar-pose-transformer.comで公開しています。
関連論文リスト
- PointAD: Comprehending 3D Anomalies from Points and Pixels for Zero-shot 3D Anomaly Detection [13.60524473223155]
本稿では,未知の物体上の3次元異常を認識するために,CLIPの強力な一般化能力を伝達する新しい手法であるPointADを紹介する。
PointADは、複数の2Dレンダリングに3D異常をレンダリングし、それらを3D空間に投影する。
我々のモデルはRGB情報を直接統合することができ、プラグアンドプレイ方式で3D異常の理解をさらに強化することができる。
論文 参考訳(メタデータ) (2024-10-01T01:40:22Z) - VSRD: Instance-Aware Volumetric Silhouette Rendering for Weakly Supervised 3D Object Detection [11.061100776969383]
モノクロ3Dオブジェクト検出は3Dシーン理解において重要な課題となる。
既存の手法は、豊富な3Dラベルを用いた教師あり学習に大きく依存している。
本稿では,VSRDという3次元オブジェクト検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-29T20:43:55Z) - Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [72.6809373191638]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。
具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。
第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。
第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文 参考訳(メタデータ) (2023-12-12T18:57:25Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - Anchor-free 3D Single Stage Detector with Mask-Guided Attention for
Point Cloud [79.39041453836793]
我々は、点雲をアンカーフリーで検出する新しい1段3次元検出器を開発した。
ボクセルをベースとしたスパース3D特徴量からスパース2D特徴量マップに変換することでこれを克服する。
検出信頼度スコアとバウンディングボックス回帰の精度との相関性を改善するために,IoUに基づく検出信頼度再校正手法を提案する。
論文 参考訳(メタデータ) (2021-08-08T13:42:13Z) - FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle
Detection [81.79171905308827]
3Dアノテーションを使わずに点雲中の車両を検出するためのフラストラム対応幾何推論(FGR)を提案する。
本手法は粗い3次元セグメンテーションと3次元バウンディングボックス推定の2段階からなる。
2Dバウンディングボックスとスパースポイントクラウドだけで、3D空間内のオブジェクトを正確に検出できます。
論文 参考訳(メタデータ) (2021-05-17T07:29:55Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z) - F-Siamese Tracker: A Frustum-based Double Siamese Network for 3D Single
Object Tracking [12.644452175343059]
3Dオブジェクト追跡の主な課題は、適切な3D候補を生成するための検索スペースを減らす方法である。
3Dプロポーザルに頼る代わりに、2D領域プロポーザルを生成し、それを3Dビューイングフラストラムに出力する。
我々は3次元フラストラム上でオンラインの精度検証を行い、洗練された点雲探索空間を生成する。
論文 参考訳(メタデータ) (2020-10-22T08:01:17Z) - RTM3D: Real-time Monocular 3D Detection from Object Keypoints for
Autonomous Driving [26.216609821525676]
最も成功した3D検出器は、3Dバウンディングボックスから2Dボックスへの投射制約を重要な構成要素としている。
画像空間における3次元境界ボックスの9つの視点キーポイントを予測し、3次元空間における3次元視点と2次元視点の幾何学的関係を利用して、次元、位置、方向を復元する。
提案手法は,KITTIベンチマークの最先端性能を達成しつつ,モノクロ画像の3次元検出を行う最初のリアルタイムシステムである。
論文 参考訳(メタデータ) (2020-01-10T08:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。