論文の概要: Robust 2D/3D Vehicle Parsing in CVIS
- arxiv url: http://arxiv.org/abs/2103.06432v1
- Date: Thu, 11 Mar 2021 03:35:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-12 14:40:02.770110
- Title: Robust 2D/3D Vehicle Parsing in CVIS
- Title(参考訳): CVISにおけるロバスト2D/3D車両解析
- Authors: Hui Miao, Feixiang Lu, Zongdai Liu, Liangjun Zhang, Dinesh Manocha,
Bin Zhou
- Abstract要約: 本研究では,協調型車両インフラシステム(CVIS)の一環として,異なるカメラビューの車両を堅牢に検出・認識する新しいアプローチを提案する。
提案方式は任意のカメラビュー向けに設計されており,本質的パラメータや外部的パラメータを仮定しない。
実際に,本手法は2次元検出,インスタンスセグメンテーション,6-DoFのポーズ推定においてSOTA法より優れている。
- 参考スコア(独自算出の注目度): 54.825777404511605
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present a novel approach to robustly detect and perceive vehicles in
different camera views as part of a cooperative vehicle-infrastructure system
(CVIS). Our formulation is designed for arbitrary camera views and makes no
assumptions about intrinsic or extrinsic parameters. First, to deal with
multi-view data scarcity, we propose a part-assisted novel view synthesis
algorithm for data augmentation. We train a part-based texture inpainting
network in a self-supervised manner. Then we render the textured model into the
background image with the target 6-DoF pose. Second, to handle various camera
parameters, we present a new method that produces dense mappings between image
pixels and 3D points to perform robust 2D/3D vehicle parsing. Third, we build
the first CVIS dataset for benchmarking, which annotates more than 1540 images
(14017 instances) from real-world traffic scenarios. We combine these novel
algorithms and datasets to develop a robust approach for 2D/3D vehicle parsing
for CVIS. In practice, our approach outperforms SOTA methods on 2D detection,
instance segmentation, and 6-DoF pose estimation, by 4.5%, 4.3%, and 2.9%,
respectively. More details and results are included in the supplement. To
facilitate future research, we will release the source code and the dataset on
GitHub.
- Abstract(参考訳): 本稿では,協調型車両インフラシステム(CVIS)の一環として,異なるカメラビューの車両を堅牢に検出・認識する新しいアプローチを提案する。
提案方式は任意のカメラビュー向けに設計されており,本質的パラメータや外部的パラメータを仮定しない。
まず,多視点データ不足に対処するために,データ拡張のための部分支援による新しいビュー合成アルゴリズムを提案する。
パーツベースのテクスチャインペインティングネットワークを自己監督でトレーニングします。
次に、ターゲットの6-DoFポーズでテクスチャモデルを背景画像にレンダリングします。
第2に,画像画素と3D点間の高密度マッピングを作成し,ロバストな2D/3D車両解析を行う手法を提案する。
第3に,実世界のトラフィックシナリオから1540以上のイメージ(14017インスタンス)を注釈する,ベンチマーク用の最初のcvisデータセットを構築しました。
これらの新しいアルゴリズムとデータセットを組み合わせて、CVISの2D/3D車両解析のための堅牢なアプローチを開発しました。
実際に,本手法は,2次元検出,インスタンス分割,6-DoFのポーズ推定において,それぞれ4.5%,4.3%,2.9%のSOTA法より優れていた。
詳細と結果はサプリメントに含まれている。
今後の研究を促進するため、ソースコードとデータセットをGitHubでリリースします。
関連論文リスト
- Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data [80.14669385741202]
本稿では,自律運転データに適した3次元知覚モデルのための自己教師付き事前学習手法を提案する。
我々は、自動走行装置における同期・校正画像とLidarセンサーの可用性を活用している。
私たちのメソッドは、ポイントクラウドや画像アノテーションを一切必要としません。
論文 参考訳(メタデータ) (2022-03-30T12:40:30Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - Pose Estimation of Specific Rigid Objects [0.7931904787652707]
本稿では,RGBまたはRGB-D入力画像から剛体物体の6次元ポーズを推定する問題に対処する。
この問題は、ロボット操作、拡張現実、自律運転など、多くの応用分野において非常に重要である。
論文 参考訳(メタデータ) (2021-12-30T14:36:47Z) - To the Point: Efficient 3D Object Detection in the Range Image with
Graph Convolution Kernels [30.3378171262436]
我々は,各画素の3次元球面座標を網羅する2次元畳み込みネットワークアーキテクチャを設計する。
提案手法はオープンデータセット上で競合的に動作し,歩行者検出の最先端APを69.7%から75.5%に改善する。
私たちの最小のモデルは、今でも人気の高いPointPillarsを上回り、180倍のFLOPSとモデルパラメータを必要としています。
論文 参考訳(メタデータ) (2021-06-25T01:27:26Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - PerMO: Perceiving More at Once from a Single Image for Autonomous
Driving [76.35684439949094]
単一画像から完全テクスチャ化された車両の3次元モデルを検出し,セグメント化し,再構成する新しい手法を提案する。
私たちのアプローチは、ディープラーニングの強みと従来のテクニックの優雅さを組み合わせています。
我々はこれらのアルゴリズムを自律運転システムに統合した。
論文 参考訳(メタデータ) (2020-07-16T05:02:45Z) - Single-Shot 3D Detection of Vehicles from Monocular RGB Images via
Geometry Constrained Keypoints in Real-Time [6.82446891805815]
単眼RGB画像における車両検出のための新しい3次元単発物体検出法を提案する。
提案手法は,3次元空間への2次元検出を付加回帰および分類パラメータの予測により引き上げる。
KITTI 3D Object Detection と新しい nuScenes Object Detection ベンチマークを用いて,自律走行のための異なるデータセットに対するアプローチを検証し,その評価を行った。
論文 参考訳(メタデータ) (2020-06-23T15:10:19Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z) - Object Detection on Single Monocular Images through Canonical
Correlation Analysis [3.4722706398428493]
点雲や深度画像のような余分な3次元データを用いることなく、単分子画像から3次元オブジェクト情報を検索する。
本稿では,単眼画像とそれに対応する深度画像とを融合する2次元CCAフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-13T05:03:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。