論文の概要: Improved Single Camera BEV Perception Using Multi-Camera Training
- arxiv url: http://arxiv.org/abs/2409.02676v1
- Date: Wed, 4 Sep 2024 13:06:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-05 18:26:46.824565
- Title: Improved Single Camera BEV Perception Using Multi-Camera Training
- Title(参考訳): マルチカメラトレーニングによるシングルカメラBEV知覚の改善
- Authors: Daniel Busch, Ido Freeman, Richard Meyes, Tobias Meisen,
- Abstract要約: 大規模生産において、コスト効率は最適化の目標であり、カメラの使用を減らすことがより重要になる。
これにより、低コストのセンサー設定で十分な性能を提供するBEV知覚モデルの開発が問題となる。
本研究の目的は,最新のマルチカメラサラウンドビューモデルを用いて,上記の性能低下を極力低減することである。
- 参考スコア(独自算出の注目度): 4.003066044908734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bird's Eye View (BEV) map prediction is essential for downstream autonomous driving tasks like trajectory prediction. In the past, this was accomplished through the use of a sophisticated sensor configuration that captured a surround view from multiple cameras. However, in large-scale production, cost efficiency is an optimization goal, so that using fewer cameras becomes more relevant. But the consequence of fewer input images correlates with a performance drop. This raises the problem of developing a BEV perception model that provides a sufficient performance on a low-cost sensor setup. Although, primarily relevant for inference time on production cars, this cost restriction is less problematic on a test vehicle during training. Therefore, the objective of our approach is to reduce the aforementioned performance drop as much as possible using a modern multi-camera surround view model reduced for single-camera inference. The approach includes three features, a modern masking technique, a cyclic Learning Rate (LR) schedule, and a feature reconstruction loss for supervising the transition from six-camera inputs to one-camera input during training. Our method outperforms versions trained strictly with one camera or strictly with six-camera surround view for single-camera inference resulting in reduced hallucination and better quality of the BEV map.
- Abstract(参考訳): Bird's Eye View (BEV) マップの予測は、軌道予測のような下流の自律走行タスクに不可欠である。
過去には、複数のカメラからサラウンドビューをキャプチャーする高度なセンサー構成を使用して実現された。
しかし、大規模生産では、コスト効率が最適化の目標であり、カメラの使用を減らすことがより重要になる。
しかし、少ない入力画像の結果はパフォーマンス低下と相関する。
これにより、低コストのセンサー設定で十分な性能を提供するBEV知覚モデルの開発が問題となる。
主に量産車における推論時間に関連するが、このコスト制限は訓練中の試験車両では問題にならない。
そこで本研究の目的は,最新のマルチカメラサラウンドビューモデルを用いて,上記の性能低下を極力低減することである。
このアプローチには、3つの特徴、現代のマスキング技術、サイクリックラーニングレート(LR)スケジュール、トレーニング中の6カメラ入力から1カメラ入力への移行を監督する特徴再構成損失が含まれる。
本手法は、1台のカメラで厳密に訓練されたバージョン、または6台のカメラサラウンドビューで1台のカメラの推測を行い、幻覚の低減とBEVマップの品質向上を実現した。
関連論文リスト
- EffLoc: Lightweight Vision Transformer for Efficient 6-DOF Camera
Relocalization [12.980447668368274]
EffLocは,シングルイメージカメラ再ローカライズのための新しい視覚変換器である。
EffLocは効率と正確性に優れ、AtLocやMapNetといった先行手法よりも優れています。
大規模な屋外自動車運転のシナリオで成長し、シンプルさを確保し、エンドツーエンドのトレーニング性を確保し、手作りの損失関数をなくす。
論文 参考訳(メタデータ) (2024-02-21T05:26:17Z) - Learning Intra and Inter-Camera Invariance for Isolated Camera
Supervised Person Re-identification [6.477096324232456]
クロスカメラ画像は、単にカメラスタイルで異なるIDとして認識される傾向がある。
本稿では,ISCS設定下での人物のリIDについて検討する。
論文 参考訳(メタデータ) (2023-11-02T11:32:40Z) - Towards Viewpoint Robustness in Bird's Eye View Segmentation [85.99907496019972]
AV知覚モデルがカメラ視点の変化にどのように影響するかを考察する。
投機時のピッチ、ヨー、深さ、高さへの小さな変化は、大きな性能低下につながる。
本稿では,新しいビュー合成技術を導入し,収集したデータをターゲットリグの視点に変換する手法を提案する。
論文 参考訳(メタデータ) (2023-09-11T02:10:07Z) - Multi-Camera Calibration Free BEV Representation for 3D Object Detection [8.085831393926561]
我々は,頑健なBird's Eye View (BEV) 表現のための完全マルチカメラフリートランス (CFT) を提案する。
CFTが設計した位置認識強化(PA)を介してBEVの3D情報をマイニングする
CFTは、カメラパラメータを除去する最初の作業であるnuScenes検出タスクリーダーボードで49.7%のNDSを達成した。
論文 参考訳(メタデータ) (2022-10-31T12:18:08Z) - Cross-View Cross-Scene Multi-View Crowd Counting [56.83882084112913]
従来,複数カメラを用いて1台のカメラの視野を拡大する手法が提案されてきた。
任意のカメラレイアウトで異なるシーンでトレーニングやテストを行う,クロスビュー・クロスシーン(CVCS)のマルチビュー・クラウドカウント・パラダイムを提案する。
論文 参考訳(メタデータ) (2022-05-03T15:03:44Z) - AirPose: Multi-View Fusion Network for Aerial 3D Human Pose and Shape
Estimation [51.17610485589701]
本研究では,非構造屋外環境のための新しいマーカーレス3次元モーションキャプチャ(MoCap)システムを提案する。
AirPoseは複数の無人飛行カメラで撮影された画像を使って人間のポーズと形状を推定する。
AirPose自体は、事前校正に頼らずに、人のカメラを校正する。
論文 参考訳(メタデータ) (2022-01-20T09:46:20Z) - Balancing the Budget: Feature Selection and Tracking for Multi-Camera
Visual-Inertial Odometry [3.441021278275805]
因子グラフ最適化に基づくマルチカメラビジュアル慣性オドメトリーシステムを提案する。
攻撃的な動きと突然の照明変化を伴う狭い廊下や暗い空間など、困難な環境における動き追跡に焦点をあてる。
論文 参考訳(メタデータ) (2021-09-13T13:53:09Z) - Cross-Camera Feature Prediction for Intra-Camera Supervised Person
Re-identification across Distant Scenes [70.30052164401178]
人物再識別(Re-ID)は、重複しないカメラビュー間で人物画像をマッチングすることを目的としている。
ICS-DS Re-IDは、カメラ内IDラベル付きクロスカメラアンペアデータを使用してトレーニングを行う。
カメラ横断型自己監視情報マイニングのためのクロスカメラ特徴予測法
グローバルレベルの特徴とローカルレベルの特徴の合同学習は、グローバルなローカルなクロスカメラ特徴予測スキームを形成する。
論文 参考訳(メタデータ) (2021-07-29T11:27:50Z) - SVDistNet: Self-Supervised Near-Field Distance Estimation on Surround
View Fisheye Cameras [30.480562747903186]
シーンジオメトリの360deg認識は、特に駐車場や都市部の運転シナリオで、自動運転に不可欠です。
カメラパラメータを条件入力として用いる,新しいカメラジオメトリー適応型マルチスケール畳み込み法を提案する。
魚眼ウッドキャップサラウンドビューデータセットに対する我々のアプローチを評価し,従来のアプローチよりも大幅に改善した。
論文 参考訳(メタデータ) (2021-04-09T15:20:20Z) - Infrastructure-based Multi-Camera Calibration using Radial Projections [117.22654577367246]
パターンベースのキャリブレーション技術は、カメラの内在を個別にキャリブレーションするために使用することができる。
Infrastucture-based calibration techniqueはSLAMやStructure-from-Motionで事前に構築した3Dマップを用いて外部情報を推定することができる。
本稿では,インフラストラクチャベースのアプローチを用いて,マルチカメラシステムをスクラッチから完全にキャリブレーションすることを提案する。
論文 参考訳(メタデータ) (2020-07-30T09:21:04Z) - Rethinking the Distribution Gap of Person Re-identification with
Camera-based Batch Normalization [90.9485099181197]
本稿では,従来のReID手法の動作機構を再考する。
我々は、すべてのカメラの画像データを同じ部分空間に落とすように強制する。
幅広いReIDタスクの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-01-23T17:22:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。