論文の概要: Aug3D-RPN: Improving Monocular 3D Object Detection by Synthetic Images
with Virtual Depth
- arxiv url: http://arxiv.org/abs/2107.13269v1
- Date: Wed, 28 Jul 2021 11:00:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-29 20:02:01.062805
- Title: Aug3D-RPN: Improving Monocular 3D Object Detection by Synthetic Images
with Virtual Depth
- Title(参考訳): Aug3D-RPN:仮想深度合成画像による単眼3次元物体検出の改善
- Authors: Chenhang He, Jianqiang Huang, Xian-Sheng Hua, and Lei Zhang
- Abstract要約: 仮想深度で画像を合成することでトレーニングデータを増強するレンダリングモジュールを提案する。
レンダリングモジュールは、RGB画像と対応するスパース深度画像とを入力として、さまざまなフォトリアリスティック合成画像を出力する。
さらに,深度推定タスクを通じて共同で最適化することで,検出モデルを改善する補助モジュールを導入する。
- 参考スコア(独自算出の注目度): 64.29043589521308
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current geometry-based monocular 3D object detection models can efficiently
detect objects by leveraging perspective geometry, but their performance is
limited due to the absence of accurate depth information. Though this issue can
be alleviated in a depth-based model where a depth estimation module is plugged
to predict depth information before 3D box reasoning, the introduction of such
module dramatically reduces the detection speed. Instead of training a costly
depth estimator, we propose a rendering module to augment the training data by
synthesizing images with virtual-depths. The rendering module takes as input
the RGB image and its corresponding sparse depth image, outputs a variety of
photo-realistic synthetic images, from which the detection model can learn more
discriminative features to adapt to the depth changes of the objects. Besides,
we introduce an auxiliary module to improve the detection model by jointly
optimizing it through a depth estimation task. Both modules are working in the
training time and no extra computation will be introduced to the detection
model. Experiments show that by working with our proposed modules, a
geometry-based model can represent the leading accuracy on the KITTI 3D
detection benchmark.
- Abstract(参考訳): 現在の幾何学に基づくモノキュラー3次元物体検出モデルでは、視点形状を利用して効率的に物体を検出できるが、正確な深度情報がないため、その性能は限られている。
この問題は、3次元ボックス推論の前に深度推定モジュールをプラグして深度情報を予測するディープベースモデルでは緩和できるが、そのようなモジュールの導入により検出速度が劇的に低下する。
コストのかかる深度推定器を訓練する代わりに、仮想深度で画像を合成することでトレーニングデータを増強するレンダリングモジュールを提案する。
レンダリングモジュールは、RGB画像とそれに対応するスパース深度画像とを入力として、さまざまな写真リアルな合成画像を出力し、検出モデルは、オブジェクトの深度変化に適応するために、より識別的な特徴を学習することができる。
さらに,深度推定タスクを通じて共同で最適化することで,検出モデルを改善する補助モジュールを導入する。
どちらのモジュールもトレーニング時間内に動作しており、検出モデルに余分な計算を導入することはない。
実験により,提案したモジュールを用いて,KITTI 3D検出ベンチマークにおいて,幾何モデルが先行精度を示すことを示す。
関連論文リスト
- VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-04-15T03:12:12Z) - DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and
Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。
本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。
我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-03-09T12:22:46Z) - Perspective-aware Convolution for Monocular 3D Object Detection [2.33877878310217]
画像の長距離依存性をキャプチャする新しい視点対応畳み込み層を提案する。
画像画素ごとの深度軸に沿った特徴を抽出するために畳み込みカーネルを強制することにより、パースペクティブ情報をネットワークアーキテクチャに組み込む。
我々は、KITTI3Dデータセットの性能向上を実証し、簡単なベンチマークで平均23.9%の精度を達成した。
論文 参考訳(メタデータ) (2023-08-24T17:25:36Z) - Parametric Depth Based Feature Representation Learning for Object
Detection and Segmentation in Bird's Eye View [44.78243406441798]
本稿では,このような特徴変換をモデル化するために,深度などの幾何学的情報を活用することに焦点を当てる。
まず2次元画像の特徴を,各ビューの画素ごとのパラメトリック深度分布を予測して,エゴ車に定義された3次元空間に引き上げる。
次に、深度からBEVフレームへの3次元空間占有度に基づいて、3次元特徴体積を集約する。
論文 参考訳(メタデータ) (2023-07-09T06:07:22Z) - IDMS: Instance Depth for Multi-scale Monocular 3D Object Detection [1.7710335706046505]
拡張畳み込みに基づくマルチスケール認識モジュールは、異なるスケールターゲットに対するモデルの処理能力を向上するために設計されている。
提案アルゴリズムをKITTIテストセットと評価セットで検証することにより,実験結果から,車種別AP40の5.27%の改善が得られた。
論文 参考訳(メタデータ) (2022-12-03T04:02:31Z) - MDS-Net: A Multi-scale Depth Stratification Based Monocular 3D Object
Detection Algorithm [4.958840734249869]
本論文では,マルチスケール深度層構造に基づく1段モノクロ3次元物体検出アルゴリズムを提案する。
KITTIベンチマークの実験では、MDS-Netは既存のモノクル3D検出方法よりも3D検出やBEV検出タスクに優れていた。
論文 参考訳(メタデータ) (2022-01-12T07:11:18Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - DONet: Learning Category-Level 6D Object Pose and Size Estimation from
Depth Observation [53.55300278592281]
単一深度画像からカテゴリレベルの6次元オブジェクト・ポースとサイズ推定(COPSE)を提案する。
筆者らのフレームワークは,深度チャネルのみの物体のリッチな幾何学的情報に基づいて推論を行う。
我々のフレームワークは、ラベル付き現実世界の画像を必要とする最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2021-06-27T10:41:50Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。