論文の概要: A Dual-Cycled Cross-View Transformer Network for Unified Road Layout
Estimation and 3D Object Detection in the Bird's-Eye-View
- arxiv url: http://arxiv.org/abs/2209.08844v1
- Date: Mon, 19 Sep 2022 08:43:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 18:28:22.643993
- Title: A Dual-Cycled Cross-View Transformer Network for Unified Road Layout
Estimation and 3D Object Detection in the Bird's-Eye-View
- Title(参考訳): バードアイビューにおける道路レイアウト推定と3次元物体検出のための2サイクルクロスビュートランスネットワーク
- Authors: Curie Kim and Ue-Hwan Kim
- Abstract要約: 本稿では,トランスアーキテクチャとCycleGAN学習フレームワークにヒントを得た,道路レイアウト推定と3次元物体検出のための統一モデルを提案する。
道路配置推定におけるマルチクラス学習の効果を検討するために,幅広い学習シナリオを構築した。
その結果,道路配置推定と3次元物体検出の両タスクにおいて,最先端の性能を実現することができた。
- 参考スコア(独自算出の注目度): 4.251500966181852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The bird's-eye-view (BEV) representation allows robust learning of multiple
tasks for autonomous driving including road layout estimation and 3D object
detection. However, contemporary methods for unified road layout estimation and
3D object detection rarely handle the class imbalance of the training dataset
and multi-class learning to reduce the total number of networks required. To
overcome these limitations, we propose a unified model for road layout
estimation and 3D object detection inspired by the transformer architecture and
the CycleGAN learning framework. The proposed model deals with the performance
degradation due to the class imbalance of the dataset utilizing the focal loss
and the proposed dual cycle loss. Moreover, we set up extensive learning
scenarios to study the effect of multi-class learning for road layout
estimation in various situations. To verify the effectiveness of the proposed
model and the learning scheme, we conduct a thorough ablation study and a
comparative study. The experiment results attest the effectiveness of our
model; we achieve state-of-the-art performance in both the road layout
estimation and 3D object detection tasks.
- Abstract(参考訳): 鳥眼ビュー(BEV)表現は、道路レイアウト推定や3Dオブジェクト検出を含む、自律運転のための複数のタスクの堅牢な学習を可能にする。
しかし,現代の道路配置推定法や3次元物体検出法では,トレーニングデータセットのクラス不均衡やマルチクラス学習の扱いがほとんどなく,必要なネットワークの総数を削減することができる。
これらの制約を克服するために,トランスフォーマーアーキテクチャとサイクガン学習フレームワークに触発された道路レイアウト推定と3次元物体検出の統一モデルを提案する。
提案モデルは,焦点損失と2サイクル損失を併用したデータセットのクラス不均衡による性能劣化に対処する。
さらに,様々な状況における道路配置推定における多クラス学習の効果を検討するために,広範な学習シナリオを設定した。
提案モデルと学習方式の有効性を検証するため,徹底的なアブレーション研究を行い,比較検討を行った。
実験の結果,道路配置推定と3次元物体検出の両タスクにおいて,最先端の性能が得られた。
関連論文リスト
- Transfer Learning from Simulated to Real Scenes for Monocular 3D Object Detection [9.708971995966476]
本稿では,これらの課題に対処するための2段階のトレーニング戦略を紹介する。
当社のアプローチでは,大規模合成データセットであるRoadSense3Dのモデルをトレーニングしています。
実世界のデータセットの組み合わせでモデルを微調整し、実用条件への適応性を高める。
論文 参考訳(メタデータ) (2024-08-28T08:44:58Z) - Cyclic Refiner: Object-Aware Temporal Representation Learning for Multi-View 3D Detection and Tracking [37.186306646752975]
マルチビュー3次元検出・追跡タスクのための統合オブジェクト認識時間学習フレームワークを提案する。
提案モデルでは,異なる設計のベースラインよりも一貫した性能向上を実現している。
論文 参考訳(メタデータ) (2024-07-03T16:10:19Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Simultaneous Multiple Object Detection and Pose Estimation using 3D
Model Infusion with Monocular Vision [21.710141497071373]
複数物体の検出とポーズ推定はコンピュータビジョンの重要なタスクである。
単眼視と3Dモデルを用いた同時ニューラルモデリングを提案する。
我々の同時多重物体検出・ポース推定ネットワーク(SMOPE-Net)は、エンドツーエンドのトレーニング可能なマルチタスクネットワークである。
論文 参考訳(メタデータ) (2022-11-21T05:18:56Z) - Stereo Neural Vernier Caliper [57.187088191829886]
学習に基づくステレオ3Dオブジェクト検出のための新しいオブジェクト中心フレームワークを提案する。
初期3次元立方体推定値から改良された更新を予測する方法の問題に対処する。
提案手法は,KITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-21T14:36:07Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z) - Object Detection and Recognition of Swap-Bodies using Camera mounted on
a Vehicle [13.702911401489427]
本研究の目的は、スワップボディのオブジェクト検出を共同で行い、ILUコードを読み取ってスワップボディの種類を見つけることである。
近年の研究活動は、コンピュータビジョンの分野を強化する深層学習技術を大幅に改善している。
論文 参考訳(メタデータ) (2020-04-17T08:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。