論文の概要: One Training for Multiple Deployments: Polar-based Adaptive BEV
Perception for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2304.00525v1
- Date: Sun, 2 Apr 2023 12:37:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 17:30:12.207706
- Title: One Training for Multiple Deployments: Polar-based Adaptive BEV
Perception for Autonomous Driving
- Title(参考訳): 複数の展開のための1つのトレーニング: 自律運転のための極性に基づく適応型BEV知覚
- Authors: Huitong Yang, Xuyang Bai, Xinge Zhu, and Yuexin Ma
- Abstract要約: 現在の視覚中心の3次元知覚アプローチは、固定解像度の正規格子表現特徴写像を用いて訓練されている。
本稿では,画像からBEV特徴マップを構築する場合のPolar表現を利用して,複数配置で一度トレーニングを行うという目標を達成する。
大規模自律運転データセットの実験により、我々の手法は、複数のデプロイメントのための1つのトレーニングの優れた特性として、他の人よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 17.28727648742317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current on-board chips usually have different computing power, which means
multiple training processes are needed for adapting the same learning-based
algorithm to different chips, costing huge computing resources. The situation
becomes even worse for 3D perception methods with large models. Previous
vision-centric 3D perception approaches are trained with regular
grid-represented feature maps of fixed resolutions, which is not applicable to
adapt to other grid scales, limiting wider deployment. In this paper, we
leverage the Polar representation when constructing the BEV feature map from
images in order to achieve the goal of training once for multiple deployments.
Specifically, the feature along rays in Polar space can be easily adaptively
sampled and projected to the feature in Cartesian space with arbitrary
resolutions. To further improve the adaptation capability, we make multi-scale
contextual information interact with each other to enhance the feature
representation. Experiments on a large-scale autonomous driving dataset show
that our method outperforms others as for the good property of one training for
multiple deployments.
- Abstract(参考訳): 現在のオンボードチップは通常、異なる計算能力を持つため、同じ学習ベースのアルゴリズムを異なるチップに適応させるために複数のトレーニングプロセスが必要である。
大型モデルを用いた3次元認識手法では, 状況はさらに悪化する。
従来の視覚中心の3D知覚アプローチは、固定解像度の正規のグリッド表現された特徴マップで訓練されており、他のグリッドスケールに適用できないため、より広範な展開が制限される。
本稿では,画像からBEV特徴マップを構築する場合のPolar表現を利用して,複数配置で一度トレーニングを行うという目標を達成する。
具体的には、極域の光線に沿った特徴を容易に適応的にサンプリングし、任意の解像度のデカルト空間における特徴に投影することができる。
適応性をさらに向上するため、マルチスケールのコンテキスト情報を相互に相互作用させ、特徴表現を強化する。
大規模自律運転データセットにおける実験により、複数のデプロイに対する1つのトレーニングの優れた特性について、この手法が他の手法よりも優れていることが判明した。
関連論文リスト
- LiOn-XA: Unsupervised Domain Adaptation via LiDAR-Only Cross-Modal Adversarial Training [61.26381389532653]
LiOn-XAは、LiDAR-Only Cross-Modal (X)学習と3D LiDARポイントクラウドセマンティックセマンティックセグメンテーションのためのAdversarial Trainingを組み合わせた、教師なしドメイン適応(UDA)アプローチである。
3つの現実的適応シナリオに関する実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-10-21T09:50:17Z) - Learning Shared RGB-D Fields: Unified Self-supervised Pre-training for Label-efficient LiDAR-Camera 3D Perception [17.11366229887873]
我々は、統合事前訓練戦略、NeRF-Supervised Masked Auto(NS-MAE)を導入する。
NS-MAEは、外観と幾何学の両方を符号化するNeRFの能力を利用して、マルチモーダルデータの効率的なマスク付き再構築を可能にする。
結果: NS-MAE は SOTA 事前学習法よりも優れており,各モードに対して個別の戦略を用いる。
論文 参考訳(メタデータ) (2024-05-28T08:13:49Z) - Cohere3D: Exploiting Temporal Coherence for Unsupervised Representation
Learning of Vision-based Autonomous Driving [73.3702076688159]
本稿では,コヒーレントなインスタンス表現を長期入力シーケンスで学習するための,新しいコントラスト学習アルゴリズムであるCohere3Dを提案する。
我々は,様々な下流認識,予測,計画タスクにおいて,事前学習したモデルを微調整することにより,アルゴリズムを評価する。
論文 参考訳(メタデータ) (2024-02-23T19:43:01Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - EdgeConvEns: Convolutional Ensemble Learning for Edge Intelligence [0.0]
Deep Edge Intelligenceは、計算能力に制限のあるエッジネットワークに、計算に高価なトレーニングを必要とするディープラーニングモデルをデプロイすることを目的としている。
本研究では、エッジ上の不均一な弱モデルを訓練し、エッジ上のデータが不均一に分散されている場所でアンサンブルを学習する、EdgeConvEnsという畳み込み型アンサンブル学習手法を提案する。
論文 参考訳(メタデータ) (2023-07-25T20:07:32Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Rethinking Range View Representation for LiDAR Segmentation [66.73116059734788]
「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。
RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。
比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
論文 参考訳(メタデータ) (2023-03-09T16:13:27Z) - AdaptiveShape: Solving Shape Variability for 3D Object Detection with
Geometry Aware Anchor Distributions [1.3807918535446089]
点雲と画像を用いた3次元物体検出は、自律運転のような知覚タスクにおいて重要な役割を果たす。
現在の手法は、標準形状の車両の検出とポーズ推定に優れた性能を示すが、より複雑な形状に欠ける。
この研究は、そのようなクラスのパフォーマンスを改善し、測定するいくつかの新しい方法を紹介します。
論文 参考訳(メタデータ) (2023-02-28T12:31:31Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Active Learning with Pseudo-Labels for Multi-View 3D Pose Estimation [18.768030475943213]
マルチビュー環境での3次元ポーズ推定問題に対するアクティブラーニングの改良を行った。
既存の単一ビューAL戦略を効率的に拡張できるフレームワークを開発する。
我々は,自己学習の形式である予測擬似ラベルを組み込むことにより,さらなる性能向上を示す。
論文 参考訳(メタデータ) (2021-12-27T14:34:25Z) - A3D: Adaptive 3D Networks for Video Action Recognition [17.118351068420086]
A3Dは適応的な3Dネットワークであり、幅広い計算ワンタイムトレーニングで推論できる。
ネットワーク幅と時間分解能のトレードオフによって、優れた制約が生じる。
同じ計算制約の下でも,適応型ネットワークの性能は著しく向上する。
論文 参考訳(メタデータ) (2020-11-24T21:01:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。