Fugu-MT 論文翻訳(概要): Improved Single Camera BEV Perception Using Multi-Camera Training

論文の概要: Improved Single Camera BEV Perception Using Multi-Camera Training

arxiv url: http://arxiv.org/abs/2409.02676v1
Date: Wed, 4 Sep 2024 13:06:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-05 18:26:46.824565
Title: Improved Single Camera BEV Perception Using Multi-Camera Training
Title（参考訳）: マルチカメラトレーニングによるシングルカメラBEV知覚の改善
Authors: Daniel Busch, Ido Freeman, Richard Meyes, Tobias Meisen,
Abstract要約: 大規模生産において、コスト効率は最適化の目標であり、カメラの使用を減らすことがより重要になる。これにより、低コストのセンサー設定で十分な性能を提供するBEV知覚モデルの開発が問題となる。本研究の目的は,最新のマルチカメラサラウンドビューモデルを用いて,上記の性能低下を極力低減することである。
参考スコア（独自算出の注目度）: 4.003066044908734
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Bird's Eye View (BEV) map prediction is essential for downstream autonomous driving tasks like trajectory prediction. In the past, this was accomplished through the use of a sophisticated sensor configuration that captured a surround view from multiple cameras. However, in large-scale production, cost efficiency is an optimization goal, so that using fewer cameras becomes more relevant. But the consequence of fewer input images correlates with a performance drop. This raises the problem of developing a BEV perception model that provides a sufficient performance on a low-cost sensor setup. Although, primarily relevant for inference time on production cars, this cost restriction is less problematic on a test vehicle during training. Therefore, the objective of our approach is to reduce the aforementioned performance drop as much as possible using a modern multi-camera surround view model reduced for single-camera inference. The approach includes three features, a modern masking technique, a cyclic Learning Rate (LR) schedule, and a feature reconstruction loss for supervising the transition from six-camera inputs to one-camera input during training. Our method outperforms versions trained strictly with one camera or strictly with six-camera surround view for single-camera inference resulting in reduced hallucination and better quality of the BEV map.
Abstract（参考訳）: Bird's Eye View (BEV) マップの予測は、軌道予測のような下流の自律走行タスクに不可欠である。過去には、複数のカメラからサラウンドビューをキャプチャーする高度なセンサー構成を使用して実現された。しかし、大規模生産では、コスト効率が最適化の目標であり、カメラの使用を減らすことがより重要になる。しかし、少ない入力画像の結果はパフォーマンス低下と相関する。これにより、低コストのセンサー設定で十分な性能を提供するBEV知覚モデルの開発が問題となる。主に量産車における推論時間に関連するが、このコスト制限は訓練中の試験車両では問題にならない。そこで本研究の目的は,最新のマルチカメラサラウンドビューモデルを用いて,上記の性能低下を極力低減することである。このアプローチには、3つの特徴、現代のマスキング技術、サイクリックラーニングレート(LR)スケジュール、トレーニング中の6カメラ入力から1カメラ入力への移行を監督する特徴再構成損失が含まれる。本手法は、1台のカメラで厳密に訓練されたバージョン、または6台のカメラサラウンドビューで1台のカメラの推測を行い、幻覚の低減とBEVマップの品質向上を実現した。

関連論文リスト

AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers [66.29824750770389]
カメラの動きを第一原理の観点から分析し、正確な3Dカメラ操作を可能にする洞察を明らかにする。これらの知見を合成して、高度な3Dカメラ制御(AC3D)アーキテクチャを設計する。
論文参考訳（メタデータ） (2024-11-27T18:49:13Z)
UniDrive: Towards Universal Driving Perception Across Camera Configurations [38.40168936403638]
3次元認識は,3次元2次元投影に基づく2次元画像から3次元情報を推測することを目的としている。カメラ構成をまたいだ一般化は、異なる自動車モデルに自律運転モデルをデプロイする上で重要である。我々は、カメラ構成全体にわたって普遍的な認識を実現するために、視覚中心の自律運転のための新しいフレームワークUniDriveを提案する。
論文参考訳（メタデータ） (2024-10-17T17:59:59Z)
RopeBEV: A Multi-Camera Roadside Perception Network in Bird's-Eye-View [3.165441652093544]
本稿では,道路側シナリオに対するマルチカメラのBEV知覚における重要な課題を,車両側と比較して体系的に分析する。 RopeBEVは、多様なカメラポーズによるトレーニングバランスの問題に対処するために、BEVの拡張を導入している。提案手法は,実世界の道路データセットであるRoScenesの1位にランクインする。
論文参考訳（メタデータ） (2024-09-18T05:16:34Z)
Towards Viewpoint Robustness in Bird's Eye View Segmentation [85.99907496019972]
AV知覚モデルがカメラ視点の変化にどのように影響するかを考察する。投機時のピッチ、ヨー、深さ、高さへの小さな変化は、大きな性能低下につながる。本稿では,新しいビュー合成技術を導入し,収集したデータをターゲットリグの視点に変換する手法を提案する。
論文参考訳（メタデータ） (2023-09-11T02:10:07Z)
Multi-Camera Calibration Free BEV Representation for 3D Object Detection [8.085831393926561]
我々は,頑健なBird's Eye View (BEV) 表現のための完全マルチカメラフリートランス (CFT) を提案する。 CFTが設計した位置認識強化(PA)を介してBEVの3D情報をマイニングする CFTは、カメラパラメータを除去する最初の作業であるnuScenes検出タスクリーダーボードで49.7%のNDSを達成した。
論文参考訳（メタデータ） (2022-10-31T12:18:08Z)
Cross-View Cross-Scene Multi-View Crowd Counting [56.83882084112913]
従来,複数カメラを用いて1台のカメラの視野を拡大する手法が提案されてきた。任意のカメラレイアウトで異なるシーンでトレーニングやテストを行う,クロスビュー・クロスシーン(CVCS)のマルチビュー・クラウドカウント・パラダイムを提案する。
論文参考訳（メタデータ） (2022-05-03T15:03:44Z)
AirPose: Multi-View Fusion Network for Aerial 3D Human Pose and Shape Estimation [51.17610485589701]
本研究では,非構造屋外環境のための新しいマーカーレス3次元モーションキャプチャ(MoCap)システムを提案する。 AirPoseは複数の無人飛行カメラで撮影された画像を使って人間のポーズと形状を推定する。 AirPose自体は、事前校正に頼らずに、人のカメラを校正する。
論文参考訳（メタデータ） (2022-01-20T09:46:20Z)
Balancing the Budget: Feature Selection and Tracking for Multi-Camera Visual-Inertial Odometry [3.441021278275805]
因子グラフ最適化に基づくマルチカメラビジュアル慣性オドメトリーシステムを提案する。攻撃的な動きと突然の照明変化を伴う狭い廊下や暗い空間など、困難な環境における動き追跡に焦点をあてる。
論文参考訳（メタデータ） (2021-09-13T13:53:09Z)
Cross-Camera Feature Prediction for Intra-Camera Supervised Person Re-identification across Distant Scenes [70.30052164401178]
人物再識別(Re-ID)は、重複しないカメラビュー間で人物画像をマッチングすることを目的としている。 ICS-DS Re-IDは、カメラ内IDラベル付きクロスカメラアンペアデータを使用してトレーニングを行う。カメラ横断型自己監視情報マイニングのためのクロスカメラ特徴予測法グローバルレベルの特徴とローカルレベルの特徴の合同学習は、グローバルなローカルなクロスカメラ特徴予測スキームを形成する。
論文参考訳（メタデータ） (2021-07-29T11:27:50Z)
SVDistNet: Self-Supervised Near-Field Distance Estimation on Surround View Fisheye Cameras [30.480562747903186]
シーンジオメトリの360deg認識は、特に駐車場や都市部の運転シナリオで、自動運転に不可欠です。カメラパラメータを条件入力として用いる,新しいカメラジオメトリー適応型マルチスケール畳み込み法を提案する。魚眼ウッドキャップサラウンドビューデータセットに対する我々のアプローチを評価し,従来のアプローチよりも大幅に改善した。
論文参考訳（メタデータ） (2021-04-09T15:20:20Z)
Infrastructure-based Multi-Camera Calibration using Radial Projections [117.22654577367246]
パターンベースのキャリブレーション技術は、カメラの内在を個別にキャリブレーションするために使用することができる。 Infrastucture-based calibration techniqueはSLAMやStructure-from-Motionで事前に構築した3Dマップを用いて外部情報を推定することができる。本稿では,インフラストラクチャベースのアプローチを用いて,マルチカメラシステムをスクラッチから完全にキャリブレーションすることを提案する。
論文参考訳（メタデータ） (2020-07-30T09:21:04Z)
Rethinking the Distribution Gap of Person Re-identification with Camera-based Batch Normalization [90.9485099181197]
本稿では,従来のReID手法の動作機構を再考する。我々は、すべてのカメラの画像データを同じ部分空間に落とすように強制する。幅広いReIDタスクの実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2020-01-23T17:22:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。