論文の概要: QuadBEV: An Efficient Quadruple-Task Perception Framework via Bird's-Eye-View Representation
- arxiv url: http://arxiv.org/abs/2410.06516v1
- Date: Wed, 9 Oct 2024 03:31:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 05:18:55.524312
- Title: QuadBEV: An Efficient Quadruple-Task Perception Framework via Bird's-Eye-View Representation
- Title(参考訳): QuadBEV:Bird's-Eye-View Representationによる効率的な四重項知覚フレームワーク
- Authors: Yuxin Li, Yiheng Li, Xulei Yang, Mengying Yu, Zihang Huang, Xiaojun Wu, Chai Kiat Yeo,
- Abstract要約: Bird's-Eye-View (BEV) の知覚は、複数のセンサー入力を統一された表現に統合する能力により、自律運転システムにおいて重要な要素となっている。
提案するQuadBEVは,4つのタスク間で共有された空間的・文脈的情報を活用する,効率的なマルチタスク認識フレームワークである。
本研究は,QuadBEVの有効性とロバスト性を検証し,実世界の応用に適合することを示す包括的実験である。
- 参考スコア(独自算出の注目度): 11.074747442071729
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Bird's-Eye-View (BEV) perception has become a vital component of autonomous driving systems due to its ability to integrate multiple sensor inputs into a unified representation, enhancing performance in various downstream tasks. However, the computational demands of BEV models pose challenges for real-world deployment in vehicles with limited resources. To address these limitations, we propose QuadBEV, an efficient multitask perception framework that leverages the shared spatial and contextual information across four key tasks: 3D object detection, lane detection, map segmentation, and occupancy prediction. QuadBEV not only streamlines the integration of these tasks using a shared backbone and task-specific heads but also addresses common multitask learning challenges such as learning rate sensitivity and conflicting task objectives. Our framework reduces redundant computations, thereby enhancing system efficiency, making it particularly suited for embedded systems. We present comprehensive experiments that validate the effectiveness and robustness of QuadBEV, demonstrating its suitability for real-world applications.
- Abstract(参考訳): Bird's-Eye-View (BEV) 知覚は、複数のセンサー入力を統一表現に統合し、様々な下流タスクのパフォーマンスを向上させる能力により、自律運転システムにおいて重要な要素となっている。
しかしながら、BEVモデルの計算要求は、限られた資源を持つ車両における現実の展開に困難をもたらす。
これらの制約に対処するために,3次元オブジェクト検出,車線検出,マップセグメンテーション,占有率予測という4つの主要なタスクで共有された空間情報と文脈情報を活用する,効率的なマルチタスク認識フレームワークであるQuadBEVを提案する。
QuadBEVは、共有バックボーンとタスク固有のヘッドを使用してこれらのタスクの統合を合理化するだけでなく、学習速度の感度やタスク目標の矛盾といった一般的なマルチタスク学習課題にも対処する。
我々のフレームワークは冗長な計算を減らし、システム効率を向上し、組込みシステムに特に適している。
本研究は,QuadBEVの有効性とロバスト性を検証し,実世界の応用に適合することを示す包括的実験である。
関連論文リスト
- BEVPose: Unveiling Scene Semantics through Pose-Guided Multi-Modal BEV Alignment [8.098296280937518]
本稿では,カメラとライダーデータからBEV表現を統合するフレームワークであるBEVPoseについて,センサポーズを誘導監視信号として用いた。
ポーズ情報を活用することで,環境の幾何学的側面と意味的側面の両方を捉えた潜在的BEV埋め込みの学習を容易にし,マルチモーダルな感覚入力を調整・融合する。
論文 参考訳(メタデータ) (2024-10-28T12:40:27Z) - Learning Content-Aware Multi-Modal Joint Input Pruning via Bird's-Eye-View Representation [11.074747442071729]
本稿では,コンテンツ対応型マルチモーダルジョイントプルーニング手法を提案する。
我々は,NuScenesデータセットの広範な実験を通じて,アプローチの有効性を検証する。
論文 参考訳(メタデータ) (2024-10-09T03:30:00Z) - MaskBEV: Towards A Unified Framework for BEV Detection and Map Segmentation [14.67253585778639]
MaskBEVは、マスキングによるマルチタスク学習パラダイムである。
3Dオブジェクトの検出と鳥の目視(BEV)マップのセグメンテーションを統一する。
3Dオブジェクト検出の1.3 NDS改善とBEVマップセグメンテーションの2.7 mIoU改善を実現している。
論文 参考訳(メタデータ) (2024-08-17T07:11:38Z) - RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception [64.80760846124858]
本稿では,様々な知覚タスクの表現を調和させる新しい統一表現RepVFを提案する。
RepVFは、ベクトル場を通じてシーン内の異なるターゲットの構造を特徴付け、シングルヘッドでマルチタスクの学習モデルを可能にする。
RepVF 上に構築された RFTR は,タスク間の固有性を利用したネットワークである。
論文 参考訳(メタデータ) (2024-07-15T16:25:07Z) - DA-BEV: Unsupervised Domain Adaptation for Bird's Eye View Perception [104.87876441265593]
カメラのみのBird's Eye View (BEV)は3次元空間における環境認識に大きな可能性を示した。
非教師なし領域適応型BEVは、様々な未ラベル対象データから効果的に学習するが、まだ未探索である。
DA-BEVは、画像ビュー機能とBEV機能の相補性を利用して、ドメイン適応型BEV課題に対処する、最初のドメイン適応型カメラのみのBEVフレームワークである。
論文 参考訳(メタデータ) (2024-01-13T04:21:24Z) - A Dynamic Feature Interaction Framework for Multi-task Visual Perception [100.98434079696268]
複数の共通認識課題を解決するための効率的な統合フレームワークを考案する。
これらのタスクには、インスタンスセグメンテーション、セマンティックセグメンテーション、モノクル3D検出、深さ推定が含まれる。
提案するフレームワークはD2BNetと呼ばれ,マルチタスク認識のためのパラメータ効率予測に一意なアプローチを示す。
論文 参考訳(メタデータ) (2023-06-08T09:24:46Z) - OCBEV: Object-Centric BEV Transformer for Multi-View 3D Object Detection [29.530177591608297]
マルチビュー3Dオブジェクト検出は、高い有効性と低コストのため、自動運転において人気を博している。
現在の最先端検出器のほとんどは、クエリベースのバードアイビュー(BEV)パラダイムに従っている。
本稿では,移動対象の時間的・空間的手がかりをより効率的に彫ることができるOCBEVを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:59:48Z) - Visual Exemplar Driven Task-Prompting for Unified Perception in
Autonomous Driving [100.3848723827869]
本稿では,タスク固有のプロンプトを通じて視覚的見本を提示する,効果的なマルチタスクフレームワークVE-Promptを提案する。
具体的には、境界ボックスと色に基づくマーカーに基づいて視覚的な例を生成し、ターゲットカテゴリの正確な視覚的外観を提供する。
我々は変圧器をベースとしたエンコーダと畳み込み層を橋渡しし、自律運転における効率的かつ正確な統合認識を実現する。
論文 参考訳(メタデータ) (2023-03-03T08:54:06Z) - CoBEVT: Cooperative Bird's Eye View Semantic Segmentation with Sparse
Transformers [36.838065731893735]
CoBEVTは、BEVマップ予測を協調的に生成できる最初の汎用マルチエージェント認識フレームワークである。
CoBEVTは協調的BEVセマンティックセグメンテーションのための最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-05T17:59:28Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z) - M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文 参考訳(メタデータ) (2022-04-11T13:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。