論文の概要: BCOT: A Markerless High-Precision 3D Object Tracking Benchmark
- arxiv url: http://arxiv.org/abs/2203.13437v1
- Date: Fri, 25 Mar 2022 03:55:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 13:32:03.529093
- Title: BCOT: A Markerless High-Precision 3D Object Tracking Benchmark
- Title(参考訳): BCOT: マーカーレス高精度3Dオブジェクト追跡ベンチマーク
- Authors: Jiachen Li, Bin Wang, Shiqiang Zhu, Xin Cao, Fan Zhong, Wenxuan Chen,
Te Li, Jason Gu, Xueying Qin
- Abstract要約: 実動物体の正確な3次元ポーズを推定するためのマルチビュー手法を提案し, 両眼データを用いてモノクロテクスチャレス3次元物体追跡のための新しいベンチマークを構築した。
オブジェクト中心モデルに基づいて、すべてのビューにおいて形状再投影制約を最小化することにより、オブジェクトのポーズを協調的に最適化する。
新しいベンチマークデータセットには、20のテクスチャレスオブジェクト、22のシーン、404の動画シーケンス、126Kの画像が含まれています。
- 参考スコア(独自算出の注目度): 15.8625561193144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Template-based 3D object tracking still lacks a high-precision benchmark of
real scenes due to the difficulty of annotating the accurate 3D poses of real
moving video objects without using markers. In this paper, we present a
multi-view approach to estimate the accurate 3D poses of real moving objects,
and then use binocular data to construct a new benchmark for monocular
textureless 3D object tracking. The proposed method requires no markers, and
the cameras only need to be synchronous, relatively fixed as cross-view and
calibrated. Based on our object-centered model, we jointly optimize the object
pose by minimizing shape re-projection constraints in all views, which greatly
improves the accuracy compared with the single-view approach, and is even more
accurate than the depth-based method. Our new benchmark dataset contains 20
textureless objects, 22 scenes, 404 video sequences and 126K images captured in
real scenes. The annotation error is guaranteed to be less than 2mm, according
to both theoretical analysis and validation experiments. We re-evaluate the
state-of-the-art 3D object tracking methods with our dataset, reporting their
performance ranking in real scenes. Our BCOT benchmark and code can be found at
https://ar3dv.github.io/BCOT-Benchmark/.
- Abstract(参考訳): テンプレートベースの3dオブジェクトトラッキングは、マーカーを使わずに実際の動画オブジェクトの正確な3dポーズをアノテートできないため、まだ実シーンの高精度なベンチマークが欠けている。
本稿では,実動物体の正確な3次元ポーズを推定するマルチビュー手法を提案し,双眼鏡データを用いて,モノクロテクスチャレス3次元物体追跡のための新しいベンチマークを構築する。
提案手法はマーカーを必要とせず、カメラは同期で、クロスビューやキャリブレーションとして比較的固定される必要がある。
オブジェクト中心モデルに基づいて、全てのビューにおける形状再投影制約を最小化することにより、オブジェクトのポーズを協調的に最適化する。
新しいベンチマークデータセットには、20のテクスチャレスオブジェクト、22のシーン、404の動画シーケンス、126Kの画像が含まれています。
理論解析および検証実験により、アノテーションエラーは2mm未満であることが保証されている。
我々は,現在最先端の3Dオブジェクト追跡手法をデータセットで再評価し,実シーンでのパフォーマンスランキングを報告する。
BCOTベンチマークとコードはhttps://ar3dv.github.io/BCOT-Benchmark/で確認できます。
関連論文リスト
- TAPVid-3D: A Benchmark for Tracking Any Point in 3D [63.060421798990845]
我々は,3Dにおける任意の点の追跡作業を評価するための新しいベンチマークTAPVid-3Dを導入する。
このベンチマークは、モノクロビデオから正確な3Dの動きと表面の変形を理解する能力を改善するためのガイドポストとして機能する。
論文 参考訳(メタデータ) (2024-07-08T13:28:47Z) - Tracking by 3D Model Estimation of Unknown Objects in Videos [122.56499878291916]
この表現は限定的であり、代わりに明示的なオブジェクト表現を用いて2次元追跡をガイドし改善することを提案する。
我々の表現は、全てのビデオフレームのオブジェクト上の全ての3Dポイント間の複雑な長期密度対応問題に取り組む。
提案手法は, 最適3次元形状, テクスチャ, 6DoFのポーズを推定するために, 新たな損失関数を最小化する。
論文 参考訳(メタデータ) (2023-04-13T11:32:36Z) - 3D Video Object Detection with Learnable Object-Centric Global
Optimization [65.68977894460222]
対応性に基づく最適化は3次元シーン再構成の基盤となるが、3次元ビデオオブジェクト検出では研究されていない。
オブジェクト中心の時間対応学習と特徴量付きオブジェクトバンドル調整を備えた、エンドツーエンドで最適化可能なオブジェクト検出器であるBA-Detを提案する。
論文 参考訳(メタデータ) (2023-03-27T17:39:39Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - Tracking Emerges by Looking Around Static Scenes, with Neural 3D Mapping [23.456046776979903]
本稿では,任意の場面(静的あるいは動的)における静止点のマルチビューデータを利用して,ニューラル3Dマッピングモジュールを学習することを提案する。
ニューラル3Dマッパーは、RGB-Dデータを入力として消費し、深い特徴の3Dボクセルグリッドを出力として生成する。
教師なし3Dオブジェクトトラッカーは、教師なし2Dと2.5Dのトラッカーよりも優れており、教師なし3Dオブジェクトトラッカーの精度に近づいていることを示す。
論文 参考訳(メタデータ) (2020-08-04T02:59:23Z) - Kinematic 3D Object Detection in Monocular Video [123.7119180923524]
運動運動を注意深く利用して3次元位置決めの精度を向上させるモノクロ映像を用いた3次元物体検出法を提案する。
我々は、KITTI自動運転データセット内のモノクロ3次元物体検出とバードアイビュータスクの最先端性能を達成する。
論文 参考訳(メタデータ) (2020-07-19T01:15:12Z) - Single-Shot 3D Detection of Vehicles from Monocular RGB Images via
Geometry Constrained Keypoints in Real-Time [6.82446891805815]
単眼RGB画像における車両検出のための新しい3次元単発物体検出法を提案する。
提案手法は,3次元空間への2次元検出を付加回帰および分類パラメータの予測により引き上げる。
KITTI 3D Object Detection と新しい nuScenes Object Detection ベンチマークを用いて,自律走行のための異なるデータセットに対するアプローチを検証し,その評価を行った。
論文 参考訳(メタデータ) (2020-06-23T15:10:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。