論文の概要: Disp R-CNN: Stereo 3D Object Detection via Shape Prior Guided Instance
Disparity Estimation
- arxiv url: http://arxiv.org/abs/2004.03572v1
- Date: Tue, 7 Apr 2020 17:48:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 00:42:44.163995
- Title: Disp R-CNN: Stereo 3D Object Detection via Shape Prior Guided Instance
Disparity Estimation
- Title(参考訳): Disp R-CNN:形状優先型インスタンス分散推定によるステレオ3次元物体検出
- Authors: Jiaming Sun, Linghao Chen, Yiming Xie, Siyu Zhang, Qinhong Jiang,
Xiaowei Zhou, Hujun Bao
- Abstract要約: ステレオ画像から3次元物体を検出するための新しいシステムDisp R-CNNを提案する。
我々は、LiDAR点雲を必要とせずに、統計的形状モデルを用いて、密度の異なる擬似地下構造を生成する。
KITTIデータセットの実験によると、LiDARの基盤構造がトレーニング時に利用できない場合でも、Disp R-CNNは競争性能を達成し、平均精度で従来の最先端手法を20%上回っている。
- 参考スコア(独自算出の注目度): 51.17232267143098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel system named Disp R-CNN for 3D object
detection from stereo images. Many recent works solve this problem by first
recovering a point cloud with disparity estimation and then apply a 3D
detector. The disparity map is computed for the entire image, which is costly
and fails to leverage category-specific prior. In contrast, we design an
instance disparity estimation network (iDispNet) that predicts disparity only
for pixels on objects of interest and learns a category-specific shape prior
for more accurate disparity estimation. To address the challenge from scarcity
of disparity annotation in training, we propose to use a statistical shape
model to generate dense disparity pseudo-ground-truth without the need of LiDAR
point clouds, which makes our system more widely applicable. Experiments on the
KITTI dataset show that, even when LiDAR ground-truth is not available at
training time, Disp R-CNN achieves competitive performance and outperforms
previous state-of-the-art methods by 20% in terms of average precision.
- Abstract(参考訳): 本稿では,ステレオ画像からの3次元物体検出のためのdisp r-cnnという新しいシステムを提案する。
多くの最近の研究は、まず異なる推定で点雲を回収し、3D検出器を適用してこの問題を解決する。
差分マップは画像全体に対して計算されるが、これはコストがかかり、カテゴリ固有の事前利用に失敗する。
対照的に,関心対象の画素に対してのみ不一致を予測し,より正確な不一致推定に先立ってカテゴリ固有の形状を学習するインスタンス不一致推定ネットワーク(idispnet)を設計する。
トレーニングにおける不均質アノテーションの不足による課題を解決するため,LiDAR点雲を必要とせず,統計的形状モデルを用いて高密度不均質な擬似地下構造を生成することを提案する。
KITTIデータセットの実験によると、LiDARの基盤構造がトレーニング時に利用できない場合でも、Disp R-CNNは競争性能を達成し、平均精度で従来の最先端手法を20%上回っている。
関連論文リスト
- DQS3D: Densely-matched Quantization-aware Semi-supervised 3D Detection [6.096961718434965]
本研究では,3次元屋内空間の散在を考慮し,半教師付き3次元物体検出の課題について検討する。
我々は,最近セミ教師付き学習の顕著な進歩を招いた,堅牢で原則化された自己学習の枠組みに頼っている。
そこで本研究では,空間的に密集したトレーニング信号を可能にする,最初の半教師付き3次元検出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-25T17:59:54Z) - Bridging Precision and Confidence: A Train-Time Loss for Calibrating
Object Detection [58.789823426981044]
本稿では,境界ボックスのクラス信頼度を予測精度に合わせることを目的とした,新たな補助損失定式化を提案する。
その結果,列車の走行時間損失はキャリブレーション基準を超過し,キャリブレーション誤差を低減させることがわかった。
論文 参考訳(メタデータ) (2023-03-25T08:56:21Z) - A Closer Look at Invariances in Self-supervised Pre-training for 3D
Vision [0.0]
3Dビジョンのための自己監督型事前訓練は近年研究の関心が高まっている。
本稿では,様々な事前学習手法を検証可能な統合フレームワークを提案する。
コントラスト学習を用いた3次元エンコーダと深度マップエンコーダを併用した簡易かつ効果的な事前学習法を提案する。
論文 参考訳(メタデータ) (2022-07-11T16:44:15Z) - Uncertainty-Aware Camera Pose Estimation from Points and Lines [101.03675842534415]
Perspective-n-Point-and-Line (Pn$PL) は、2D-3D特徴座標の3Dモデルに関して、高速で正確で堅牢なカメラローカライゼーションを目指している。
論文 参考訳(メタデータ) (2021-07-08T15:19:36Z) - Soft Expectation and Deep Maximization for Image Feature Detection [68.8204255655161]
質問をひっくり返し、まず繰り返し可能な3Dポイントを探し、次に検出器を訓練して画像空間にローカライズする、反復的半教師付き学習プロセスSEDMを提案する。
以上の結果から,sdmを用いてトレーニングした新しいモデルでは,シーン内の下位3dポイントのローカライズが容易になった。
論文 参考訳(メタデータ) (2021-04-21T00:35:32Z) - Delving into Localization Errors for Monocular 3D Object Detection [85.77319416168362]
単眼画像から3Dバウンディングボックスを推定することは、自動運転に不可欠な要素です。
本研究では, 各サブタスクがもたらす影響を定量化し, 局所化誤差を求めることが, モノクロ3次元検出の抑制に欠かせない要因である。
論文 参考訳(メタデータ) (2021-03-30T10:38:01Z) - PLADE-Net: Towards Pixel-Level Accuracy for Self-Supervised Single-View
Depth Estimation with Neural Positional Encoding and Distilled Matting Loss [49.66736599668501]
PLADE-Netと呼ばれる自己監視型単視点画素レベルの高精度深度推定ネットワークを提案する。
提案手法は,KITTIデータセットの$delta1$測定値の95%を超え,前例のない精度を示す。
論文 参考訳(メタデータ) (2021-03-12T15:54:46Z) - Probabilistic Vehicle Reconstruction Using a Multi-Task CNN [0.0]
ステレオ画像からの形状認識型3D車両再構成のための確率論的アプローチを提案する。
具体的には、車両の向きと車両のキーポイントとワイヤフレームエッジの両方の確率分布を出力するCNNを訓練する。
本手法が最先端の結果を達成し、挑戦的なKITTIベンチマークで評価することを示した。
論文 参考訳(メタデータ) (2021-02-21T20:45:44Z) - Learning to Predict the 3D Layout of a Scene [0.3867363075280544]
本稿では,単一のRGB画像のみを使用する手法を提案し,LiDARセンサを持たないデバイスや車両に適用できるようにする。
KITTIデータセットは,クラスラベル付き道路交通シーン,2D境界ボックス,自由度7自由度3Dアノテーションで構成される。
我々は、公式のKITTIベンチマークで要求されるように、結合閾値70%の3次元交差で測定された適度に困難なデータに対して平均47.3%の平均精度を達成し、従来の最先端のRGBのみの手法よりも大きなマージンで上回った。
論文 参考訳(メタデータ) (2020-11-19T17:23:30Z) - Deep Learning on Point Clouds for False Positive Reduction at Nodule
Detection in Chest CT Scans [0.0]
本稿では,CADeシステムにおける結節候補の偽陽性還元(FPR)に対する新しいアプローチに焦点を当てる。
提案手法では,入力データを2次元画像や3次元画像ではなく,ポイントクラウドとして考慮し,ポイントクラウドにディープラーニングモデルを使用する。
提案手法はベースラインモデルに対して85.98 FROCに対して77.26 FROCよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-07T17:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。