論文の概要: Kinematic 3D Object Detection in Monocular Video
- arxiv url: http://arxiv.org/abs/2007.09548v1
- Date: Sun, 19 Jul 2020 01:15:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 00:15:33.216274
- Title: Kinematic 3D Object Detection in Monocular Video
- Title(参考訳): 単眼映像における運動的3次元物体検出
- Authors: Garrick Brazil, Gerard Pons-Moll, Xiaoming Liu, Bernt Schiele
- Abstract要約: 運動運動を注意深く利用して3次元位置決めの精度を向上させるモノクロ映像を用いた3次元物体検出法を提案する。
我々は、KITTI自動運転データセット内のモノクロ3次元物体検出とバードアイビュータスクの最先端性能を達成する。
- 参考スコア(独自算出の注目度): 123.7119180923524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Perceiving the physical world in 3D is fundamental for self-driving
applications. Although temporal motion is an invaluable resource to human
vision for detection, tracking, and depth perception, such features have not
been thoroughly utilized in modern 3D object detectors. In this work, we
propose a novel method for monocular video-based 3D object detection which
carefully leverages kinematic motion to improve precision of 3D localization.
Specifically, we first propose a novel decomposition of object orientation as
well as a self-balancing 3D confidence. We show that both components are
critical to enable our kinematic model to work effectively. Collectively, using
only a single model, we efficiently leverage 3D kinematics from monocular
videos to improve the overall localization precision in 3D object detection
while also producing useful by-products of scene dynamics (ego-motion and
per-object velocity). We achieve state-of-the-art performance on monocular 3D
object detection and the Bird's Eye View tasks within the KITTI self-driving
dataset.
- Abstract(参考訳): 物理的な世界を3Dで知覚することは、自動運転アプリケーションに欠かせない。
時間運動は人間の視界にとって、検出、追跡、深度知覚のための貴重な資源であるが、現代の3Dオブジェクト検出器では、そのような特徴を十分に利用していない。
本研究では,キネマティックな動きを慎重に活用して3次元位置推定の精度を向上させる,単眼映像に基づく3次元物体検出手法を提案する。
具体的には,まず,オブジェクト指向の新たな分解法と自己バランス3次元信頼度を提案する。
両方のコンポーネントがキネマティックモデルを効果的に動作させる上で重要であることを示す。
一つのモデルのみを用いて、単眼ビデオからの3Dキネマティクスを効率よく利用し、3Dオブジェクト検出における全体の位置決め精度を向上させるとともに、シーンダイナミクス(エゴモーションと物体ごとの速度)の副産物を生成する。
我々は、KITTI自動運転データセット内のモノクロ3次元物体検出とバードアイビュータスクの最先端性能を達成する。
関連論文リスト
- DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and
Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。
本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。
我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-03-09T12:22:46Z) - Delving into Motion-Aware Matching for Monocular 3D Object Tracking [81.68608983602581]
異なる時間軸に沿った物体の運動キューが3次元多物体追跡において重要であることが判明した。
3つの動き認識コンポーネントからなるフレームワークであるMoMA-M3Tを提案する。
我々はnuScenesとKITTIデータセットに関する広範な実験を行い、MoMA-M3Tが最先端の手法と競合する性能を発揮することを実証した。
論文 参考訳(メタデータ) (2023-08-22T17:53:58Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - NeurOCS: Neural NOCS Supervision for Monocular 3D Object Localization [80.3424839706698]
入力として3Dボックスをインスタンスマスクとして使用するNeurOCSを提案する。
われわれのアプローチは、実際の運転シーンから直接カテゴリレベルの形状を学習する際の洞察に依存している。
我々は、オブジェクト中心の視点からオブジェクト座標をより効果的に学習するための重要な設計選択を行う。
論文 参考訳(メタデータ) (2023-05-28T16:18:41Z) - 3D Object Aided Self-Supervised Monocular Depth Estimation [5.579605877061333]
本研究では,モノクロ3次元物体検出による動的物体の動きに対処する新しい手法を提案する。
具体的には、まず画像中の3Dオブジェクトを検出し、検出されたオブジェクトのポーズと動的ピクセル間の対応性を構築する。
このようにして、各ピクセルの深さは有意義な幾何学モデルによって学習することができる。
論文 参考訳(メタデータ) (2022-12-04T08:52:33Z) - TripletTrack: 3D Object Tracking using Triplet Embeddings and LSTM [0.0]
3Dオブジェクトトラッキングは、自動運転システムにおいて重要なタスクである。
本稿では,3次元物体追跡における3重項埋め込みと動作表現の併用について検討する。
論文 参考訳(メタデータ) (2022-10-28T15:23:50Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - Seeing by haptic glance: reinforcement learning-based 3D object
Recognition [31.80213713136647]
対象物と指の間の触覚接触数に制限があり、対象物を見ることなく3D認識を行うことができる。
この能力は認知神経科学における「触覚的視線」と定義される。
既存の3D認識モデルのほとんどは、高密度な3Dデータに基づいて開発された。
触覚探索によって3Dデータを収集するためにロボットが使用される多くの実生活のユースケースでは、限られた数の3Dポイントしか収集できない。
アクティブに収集された3Dで客観的な3D認識と同時に触覚探査手順を最適化する新しい強化学習ベースのフレームワークが提案される。
論文 参考訳(メタデータ) (2021-02-15T15:38:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。