論文の概要: 3D Ground Truth Reconstruction from Multi-Camera Annotations Using UKF
- arxiv url: http://arxiv.org/abs/2511.17609v1
- Date: Tue, 18 Nov 2025 08:15:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.289534
- Title: 3D Ground Truth Reconstruction from Multi-Camera Annotations Using UKF
- Title(参考訳): UKFを用いたマルチカメラアノテーションによる3次元地中真実再構築
- Authors: Linh Van Ma, Unse Fatima, Tepy Sokun Chriv, Haroon Imran, Moongu Jeon,
- Abstract要約: 本稿では,UKF(Unscented Kalman Filter)を用いて2次元境界ボックスを融合させたり,キーポイント基底真理アノテーションを3次元基底真理に応用する新しい手法を提案する。
提案手法は,ヒトのアノテートした接地トラス2Dを利用して,ホログラフィベースの投影とUKFベースの融合により,2次元画像座標をロバストな3次元世界座標に変換する。
我々は,CMC,Wildtrack,Panopticの3次元局所化の精度を,利用可能な3次元地上真実と比較して高い精度で評価した。
- 参考スコア(独自算出の注目度): 4.898782241137317
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate 3D ground truth estimation is critical for applications such as autonomous navigation, surveillance, and robotics. This paper introduces a novel method that uses an Unscented Kalman Filter (UKF) to fuse 2D bounding box or pose keypoint ground truth annotations from multiple calibrated cameras into accurate 3D ground truth. By leveraging human-annotated ground-truth 2D, our proposed method, a multi-camera single-object tracking algorithm, transforms 2D image coordinates into robust 3D world coordinates through homography-based projection and UKF-based fusion. Our proposed algorithm processes multi-view data to estimate object positions and shapes while effectively handling challenges such as occlusion. We evaluate our method on the CMC, Wildtrack, and Panoptic datasets, demonstrating high accuracy in 3D localization compared to the available 3D ground truth. Unlike existing approaches that provide only ground-plane information, our method also outputs the full 3D shape of each object. Additionally, the algorithm offers a scalable and fully automatic solution for multi-camera systems using only 2D image annotations.
- Abstract(参考訳): 正確な3Dグラウンドの真理推定は、自律的なナビゲーション、監視、ロボット工学といった応用には不可欠である。
本稿では,UKF (Unscented Kalman Filter) を用いて2D境界ボックスを融合させたり,複数の校正されたカメラからキーポイント基底真理アノテーションを正確に3D基底真理に付加する手法を提案する。
提案手法は, マルチカメラを用いた単一物体追跡アルゴリズムであり, ホログラフィベースの投影とUKFベースの融合により2次元画像座標をロバストな3次元世界座標に変換する。
提案アルゴリズムは,物体の位置や形状を推定するために多視点データを処理し,閉塞などの課題を効果的に処理する。
我々は,CMC,Wildtrack,Panopticの3次元局所化の精度を,利用可能な3次元地上真実と比較して高い精度で評価した。
地上平面情報のみを提供する既存の手法とは異なり、本手法は各物体の完全な3次元形状も出力する。
さらに,このアルゴリズムは,2次元画像アノテーションのみを使用したマルチカメラシステムに対して,スケーラブルで完全自動的なソリューションを提供する。
関連論文リスト
- OpenM3D: Open Vocabulary Multi-view Indoor 3D Object Detection without Human Annotations [21.24895455233531]
オープンな多視点屋内3Dオブジェクト検出器OpenM3Dを導入する。
OpenM3Dは、ImGeoNetモデルからの2D誘起のボクセル特性に適応した単段検出器である。
推論では、高効率な検出器であるOpenM3Dは入力にマルチビュー画像しか必要とせず、精度と速度が優れている。
論文 参考訳(メタデータ) (2025-08-27T17:17:00Z) - Towards Scalable Spatial Intelligence via 2D-to-3D Data Lifting [64.64738535860351]
単一ビュー画像を包括的・スケール的・外観リアルな3D表現に変換するスケーラブルなパイプラインを提案する。
本手法は,画像の膨大な保存と空間的シーン理解への需要の増大とのギャップを埋めるものである。
画像から精度の高い3Dデータを自動的に生成することにより,データ収集コストを大幅に削減し,空間知性を向上するための新たな道を開く。
論文 参考訳(メタデータ) (2025-07-24T14:53:26Z) - CVCP-Fusion: On Implicit Depth Estimation for 3D Bounding Box Prediction [2.0375637582248136]
Cross-View Center Point-Fusionは、3Dオブジェクト検出を行う最先端モデルである。
我々のアーキテクチャは、以前に確立されたアルゴリズム、クロスビュートランスフォーマー、CenterPointのアスペクトを利用する。
論文 参考訳(メタデータ) (2024-10-15T02:55:07Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - CAPE: Camera View Position Embedding for Multi-View 3D Object Detection [100.02565745233247]
現在のクエリベースの手法は、画像と3次元空間の幾何学的対応を学習するために、グローバルな3D位置埋め込みに依存している。
本稿では,CAPE と呼ばれる,CAmera view position Embedding に基づく新しい手法を提案する。
CAPEはnuScenesデータセット上の全てのLiDARフリーメソッドの中で最先端のパフォーマンス(61.0% NDSと52.5% mAP)を達成する。
論文 参考訳(メタデータ) (2023-03-17T18:59:54Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - Stereo CenterNet based 3D Object Detection for Autonomous Driving [2.508414661327797]
ステレオ画像の幾何学的情報を用いた3次元物体検出手法Stereo CenterNetを提案する。
Stereo CenterNetは、空間内のオブジェクトの3D境界ボックスの4つの意味キーポイントを予測し、3D空間におけるオブジェクトのバウンディングボックスを復元するために、2D左の右ボックス、3D次元、向き、キーポイントを使用する。
KITTIデータセットを用いた実験により, ステレオ幾何に基づく最先端手法と比較して, 高速かつ高精度なトレードオフを実現することができた。
論文 参考訳(メタデータ) (2021-03-20T02:18:49Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。