論文の概要: Exploring intermediate representation for monocular vehicle pose
estimation
- arxiv url: http://arxiv.org/abs/2011.08464v5
- Date: Mon, 12 Jul 2021 12:09:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 16:31:00.924242
- Title: Exploring intermediate representation for monocular vehicle pose
estimation
- Title(参考訳): 単眼車姿勢推定のための中間表現の検討
- Authors: Shichao Li, Zengqiang Yan, Hongyang Li, Kwang-Ting Cheng
- Abstract要約: 1枚のRGB画像からSO(3)の車両ポーズを復元する学習ベースの新しいフレームワークを提案する。
局所的な外観から観測角度へマッピングする以前の作品とは対照的に、我々は意味のある中間幾何学的表現(IGR)を抽出して進歩的なアプローチを探求する。
このアプローチは、知覚強度をIGRに変換するディープモデルを特徴とし、カメラ座標系における物体の向きを符号化する3次元表現にマッピングする。
- 参考スコア(独自算出の注目度): 38.85309013717312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a new learning-based framework to recover vehicle pose in SO(3)
from a single RGB image. In contrast to previous works that map from local
appearance to observation angles, we explore a progressive approach by
extracting meaningful Intermediate Geometrical Representations (IGRs) to
estimate egocentric vehicle orientation. This approach features a deep model
that transforms perceived intensities to IGRs, which are mapped to a 3D
representation encoding object orientation in the camera coordinate system.
Core problems are what IGRs to use and how to learn them more effectively. We
answer the former question by designing IGRs based on an interpolated cuboid
that derives from primitive 3D annotation readily. The latter question
motivates us to incorporate geometry knowledge with a new loss function based
on a projective invariant. This loss function allows unlabeled data to be used
in the training stage to improve representation learning. Without additional
labels, our system outperforms previous monocular RGB-based methods for joint
vehicle detection and pose estimation on the KITTI benchmark, achieving
performance even comparable to stereo methods. Code and pre-trained models are
available at this https URL.
- Abstract(参考訳): 1枚のRGB画像からSO(3)の車両ポーズを復元する学習ベースの新しいフレームワークを提案する。
局所的外観から観察角度へマップする先行研究とは対照的に,エゴセントリックな車両の向きを推定するために,有意義な中間幾何表現(igr)を抽出し,進歩的アプローチを検討する。
このアプローチは、知覚強度をIGRに変換するディープモデルを特徴とし、カメラ座標系における物体の向きを符号化する3次元表現にマッピングする。
主な問題は、IGRが使用するもの、より効果的に学習する方法である。
プリミティブな3Dアノテーションから導出される補間された立方体に基づいてIGRを設計することで,従来の疑問に答える。
後者の質問は、射影不変量に基づく新しい損失関数に幾何学的知識を組み込む動機付けである。
この損失関数により、トレーニング段階でラベルのないデータを使用でき、表現学習を改善することができる。
追加ラベルなしでは,従来の単眼型rgb方式よりも性能が向上し,キッティベンチマークによる共同車両検出とポーズ推定が向上し,ステレオ法に匹敵する性能が得られた。
コードと事前訓練されたモデルは、このhttps URLで入手できる。
関連論文リスト
- Towards Human-Level 3D Relative Pose Estimation: Generalizable, Training-Free, with Single Reference [62.99706119370521]
人間は、単一のクエリ参照イメージペアのみを与えられたラベル/トレーニングなしで、目に見えないオブジェクトの相対的なポーズを容易に推論することができる。
そこで,本研究では,RGB-D参照から2.5D形状のRGB-D参照,オフザシェルフ微分可能なRGB-D参照,DINOv2のような事前学習モデルからのセマンティックキューを用いた3D一般化可能な相対ポーズ推定手法を提案する。
論文 参考訳(メタデータ) (2024-06-26T16:01:10Z) - RGB-based Category-level Object Pose Estimation via Decoupled Metric
Scale Recovery [72.13154206106259]
本研究では、6次元のポーズとサイズ推定を分離し、不完全なスケールが剛性変換に与える影響を緩和するパイプラインを提案する。
具体的には,事前学習した単分子推定器を用いて局所的な幾何学的情報を抽出する。
別個のブランチは、カテゴリレベルの統計に基づいてオブジェクトのメートル法スケールを直接復元するように設計されている。
論文 参考訳(メタデータ) (2023-09-19T02:20:26Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Joint stereo 3D object detection and implicit surface reconstruction [39.30458073540617]
本稿では,SO(3)の正確なオブジェクト指向を復元し,ステレオRGB画像から暗黙的な剛性形状を同時に予測できる学習ベースのフレームワークS-3D-RCNNを提案する。
方向推定のためには、局所的な外観を観測角度にマッピングする従来の研究とは対照的に、意味のある幾何学的表現(IGR)を抽出して進歩的なアプローチを提案する。
このアプローチは、知覚強度を1つか2つのビューからオブジェクト部分座標に変換するディープモデルにより、カメラ座標系において、直接自我中心のオブジェクト指向推定を実現する。
3次元境界ボックス内におけるより詳細な記述を実現するため,ステレオ画像からの暗黙的形状推定問題について検討する。
論文 参考訳(メタデータ) (2021-11-25T05:52:30Z) - Learnable Triangulation for Deep Learning-based 3D Reconstruction of
Objects of Arbitrary Topology from Single RGB Images [12.693545159861857]
モノクロ画像から3次元物体を再構成する深層強化学習手法を提案する。
提案手法は, 視覚的品質, 再構成精度, 計算時間において, 最先端技術よりも優れる。
論文 参考訳(メタデータ) (2021-09-24T09:44:22Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD
Images [69.5662419067878]
RGBD画像における接地参照表現は新たな分野である。
本稿では,参照する物体が閉塞により部分的にスキャンされる場合が多い単視点rgbd画像における3次元視覚グランド化の新たな課題を提案する。
提案手法はまず,RGBD画像内の関連領域をローカライズするヒートマップを生成するために,下層の言語と視覚的特徴を融合させる。
次に、ヒートマップに基づく適応的特徴学習を行い、他のビジオ言語融合とオブジェクトレベルのマッチングを行い、最後に参照したオブジェクトを接地する。
論文 参考訳(メタデータ) (2021-03-14T11:18:50Z) - Monocular 3D Detection with Geometric Constraints Embedding and
Semi-supervised Training [3.8073142980733]
我々は,KM3D-Netと呼ばれる,RGB画像のみを用いたモノクル3Dオブジェクト検出のための新しいフレームワークを提案する。
我々は、対象のキーポイント、次元、方向を予測するための完全な畳み込みモデルを設計し、これらの推定を視点幾何学的制約と組み合わせて位置属性を計算する。
論文 参考訳(メタデータ) (2020-09-02T00:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。