論文の概要: Transfer Learning from Simulated to Real Scenes for Monocular 3D Object Detection
- arxiv url: http://arxiv.org/abs/2408.15637v1
- Date: Wed, 28 Aug 2024 08:44:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 16:43:13.075230
- Title: Transfer Learning from Simulated to Real Scenes for Monocular 3D Object Detection
- Title(参考訳): モノクロ3次元物体検出のためのシミュレーションから実シーンへの移行学習
- Authors: Sondos Mohamed, Walter Zimmer, Ross Greer, Ahmed Alaaeldin Ghita, Modesto Castrillón-Santana, Mohan Trivedi, Alois Knoll, Salvatore Mario Carta, Mirko Marras,
- Abstract要約: 本稿では,これらの課題に対処するための2段階のトレーニング戦略を紹介する。
当社のアプローチでは,大規模合成データセットであるRoadSense3Dのモデルをトレーニングしています。
実世界のデータセットの組み合わせでモデルを微調整し、実用条件への適応性を高める。
- 参考スコア(独自算出の注目度): 9.708971995966476
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurately detecting 3D objects from monocular images in dynamic roadside scenarios remains a challenging problem due to varying camera perspectives and unpredictable scene conditions. This paper introduces a two-stage training strategy to address these challenges. Our approach initially trains a model on the large-scale synthetic dataset, RoadSense3D, which offers a diverse range of scenarios for robust feature learning. Subsequently, we fine-tune the model on a combination of real-world datasets to enhance its adaptability to practical conditions. Experimental results of the Cube R-CNN model on challenging public benchmarks show a remarkable improvement in detection performance, with a mean average precision rising from 0.26 to 12.76 on the TUM Traffic A9 Highway dataset and from 2.09 to 6.60 on the DAIR-V2X-I dataset when performing transfer learning. Code, data, and qualitative video results are available on the project website: https://roadsense3d.github.io.
- Abstract(参考訳): ダイナミックロードサイドシナリオにおけるモノクロ画像からの正確な3Dオブジェクトの検出は、様々なカメラ視点と予測不可能なシーン条件のため、依然として難しい問題である。
本稿では,これらの課題に対処するための2段階のトレーニング戦略を紹介する。
当社のアプローチでは,大規模合成データセットであるRoadSense3Dのモデルをトレーニングしています。
その後、実世界のデータセットの組み合わせでモデルを微調整し、実用条件への適応性を高める。
The Cube R-CNN model on challenge public benchmarks showed a significant improvement in detection performance, a average precision up to 0.26 to 12.76 on the TUM Traffic A9 Highway dataset, and from 2.09 to 6.60 on the DAIR-V2X-I dataset when performed transfer learning。
コード、データ、質的なビデオ結果は、プロジェクトのWebサイト(https://roadsense3d.github.io)で公開されている。
関連論文リスト
- Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes [65.22070581594426]
Implicit-Zoo"は、この分野の研究と開発を容易にするために、数千のGPUトレーニング日を必要とする大規模なデータセットである。
1)トランスモデルのトークン位置を学習すること、(2)NeRFモデルに関して直接3Dカメラが2D画像のポーズを取ること、である。
これにより、画像分類、セマンティックセグメンテーション、および3次元ポーズ回帰の3つのタスクすべてのパフォーマンスが向上し、研究のための新たな道が開けることになる。
論文 参考訳(メタデータ) (2024-06-25T10:20:44Z) - Zero-shot detection of buildings in mobile LiDAR using Language Vision Model [0.8192907805418583]
言語ビジョンモデル(LVM)は、2次元(2次元)コンピュータビジョンタスクにおいて、既存のステート・オブ・ザ・アート(SOTA)を上回っている。
3Dデータを表す代表的なフォーマットであるポイントクラウドに関して、LVMは重大な課題に直面している。
本研究の目的は,1)球面投影による接地SAMを3次元から2次元への移動に適用し,2)合成データを用いてその有効性を評価することである。
論文 参考訳(メタデータ) (2024-04-15T16:56:58Z) - Robust Category-Level 3D Pose Estimation from Synthetic Data [17.247607850702558]
CADモデルから生成されたオブジェクトポーズ推定のための新しい合成データセットであるSyntheticP3Dを紹介する。
逆レンダリングによるポーズ推定を行うニューラルネットワークモデルをトレーニングするための新しいアプローチ(CC3D)を提案する。
論文 参考訳(メタデータ) (2023-05-25T14:56:03Z) - 3D Data Augmentation for Driving Scenes on Camera [50.41413053812315]
本稿では,Drive-3DAugと呼ばれる3次元データ拡張手法を提案する。
まずNeural Radiance Field(NeRF)を用いて,背景および前景の3次元モデルの再構成を行う。
そして、予め定義された背景の有効領域に適応した位置と向きの3Dオブジェクトを配置することにより、拡張駆動シーンを得ることができる。
論文 参考訳(メタデータ) (2023-03-18T05:51:05Z) - A Dual-Cycled Cross-View Transformer Network for Unified Road Layout
Estimation and 3D Object Detection in the Bird's-Eye-View [4.251500966181852]
本稿では,トランスアーキテクチャとCycleGAN学習フレームワークにヒントを得た,道路レイアウト推定と3次元物体検出のための統一モデルを提案する。
道路配置推定におけるマルチクラス学習の効果を検討するために,幅広い学習シナリオを構築した。
その結果,道路配置推定と3次元物体検出の両タスクにおいて,最先端の性能を実現することができた。
論文 参考訳(メタデータ) (2022-09-19T08:43:38Z) - Weakly Supervised Training of Monocular 3D Object Detectors Using Wide
Baseline Multi-view Traffic Camera Data [19.63193201107591]
交差点における車両の7DoF予測は,道路利用者間の潜在的な衝突を評価する上で重要な課題である。
交通監視カメラ用3次元物体検出装置の微調整を弱教師付きで行う手法を開発した。
提案手法は,自動運転車のデータセット上で最上位のモノクル3Dオブジェクト検出器と同等の精度で車両の7DoFの予測精度を推定する。
論文 参考訳(メタデータ) (2021-10-21T08:26:48Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - PerMO: Perceiving More at Once from a Single Image for Autonomous
Driving [76.35684439949094]
単一画像から完全テクスチャ化された車両の3次元モデルを検出し,セグメント化し,再構成する新しい手法を提案する。
私たちのアプローチは、ディープラーニングの強みと従来のテクニックの優雅さを組み合わせています。
我々はこれらのアルゴリズムを自律運転システムに統合した。
論文 参考訳(メタデータ) (2020-07-16T05:02:45Z) - SimAug: Learning Robust Representations from Simulation for Trajectory
Prediction [78.91518036949918]
本研究では,シミュレーション学習データの拡張により,ロバスト表現を学習する新しい手法を提案する。
我々は,SimAugが実世界の3つのベンチマークで有望な結果を得ることを示す。
論文 参考訳(メタデータ) (2020-04-04T21:22:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。