論文の概要: TinyBEV: Cross Modal Knowledge Distillation for Efficient Multi Task Bird's Eye View Perception and Planning
- arxiv url: http://arxiv.org/abs/2509.18372v1
- Date: Mon, 22 Sep 2025 19:54:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.554612
- Title: TinyBEV: Cross Modal Knowledge Distillation for Efficient Multi Task Bird's Eye View Perception and Planning
- Title(参考訳): TinyBEV:多タスクバードの視覚知覚と計画のためのクロスモーダル知識蒸留
- Authors: Reeshad Khan, John Gauch,
- Abstract要約: 我々は、大規模な計画指向の教師のフルスタック能力を、コンパクトでリアルタイムな学生モデルに抽出する、統一されたカメラのみのBird's Eye View (BEV)フレームワークであるTinyBEVを紹介する。
TinyBEVは完全な自律スタック3D検出、HDマップセグメンテーション、モーション予測、占有率予測、28M-パラメータバックボーン内の目標指向計画をサポートする。
我々のモデル非依存多段階蒸留戦略は,高容量マルチモーダル知識を軽量BEVに効果的に伝達するために,特徴レベル,出力レベル,適応型領域認識の監視を組み合わせる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present TinyBEV, a unified, camera only Bird's Eye View (BEV) framework that distills the full-stack capabilities of a large planning-oriented teacher (UniAD [19]) into a compact, real-time student model. Unlike prior efficient camera only baselines such as VAD[23] and VADv2[7], TinyBEV supports the complete autonomy stack 3D detection, HD-map segmentation, motion forecasting, occupancy prediction, and goal-directed planning within a streamlined 28M-parameter backbone, achieving a 78% reduction in parameters over UniAD [19]. Our model-agnostic, multi-stage distillation strategy combines feature-level, output-level, and adaptive region-aware supervision to effectively transfer high-capacity multi-modal knowledge to a lightweight BEV representation. On nuScenes[4], Tiny-BEV achieves 39.0 mAP for detection, 1.08 minADE for motion forecasting, and a 0.32 collision rate, while running 5x faster (11 FPS) and requiring only camera input. These results demonstrate that full-stack driving intelligence can be retained in resource-constrained settings, bridging the gap between large-scale, multi-modal perception-planning models and deployment-ready real-time autonomy.
- Abstract(参考訳): 我々は、大規模な計画指向の教師(UniAD [19])のフルスタック能力を、コンパクトでリアルタイムな学生モデルに蒸留する、統一されたカメラのみのBird's Eye View(BEV)フレームワークであるTinyBEVを紹介する。
従来のVAD[23]やVADv2[7]のような効率的なカメラのみのベースラインとは異なり、TinyBEVは完全な自律スタック検出、HDマップのセグメンテーション、モーション予測、占有率予測、28Mパラメーターバックボーン内の目標指向計画をサポートし、UniAD[19]上のパラメータの78%削減を実現している。
当社のモデル非依存多段階蒸留戦略は,高容量マルチモーダル知識を軽量なBEV表現に効果的に転送するために,特徴レベル,出力レベル,適応型領域認識の監視を組み合わせる。
nuScenes[4]では、Tiny-BEVは検出用の39.0 mAP、モーション予測用の1.08 minADE、衝突速度0.32を達成し、5倍高速(11 FPS)でカメラ入力のみを必要とする。
これらの結果は、フルスタック駆動インテリジェンスをリソース制約のある環境に保持し、大規模でマルチモーダルな知覚計画モデルとデプロイ可能なリアルタイム自律性の間のギャップを埋めることを示した。
関連論文リスト
- InstanceBEV: Unifying Instance and BEV Representation for 3D Panoptic Segmentation [8.753189496432059]
BEVベースの3D知覚は、エンドツーエンドの自動運転における研究の焦点として現れている。
本稿では,マップ中心アプローチとオブジェクト中心アプローチの両長所を組み合わせた新しいモデリング手法であるInstanceBEVを提案する。
本手法は,BEV機能内のインスタンスレベルの特徴を効果的に抽出し,グローバルアテンションモデリングの実装を容易にする。
論文 参考訳(メタデータ) (2025-05-20T01:56:50Z) - Towards Efficient 3D Object Detection in Bird's-Eye-View Space for Autonomous Driving: A Convolutional-Only Approach [13.513005108086006]
BEVENetと呼ばれるBEVベースの効率的な3D検出フレームワークを提案する。
BEVENetは、NuScenesチャレンジに対する現代の最先端(SOTA)アプローチよりも3$times$高速である。
実験の結果,BEVENetは現代の最先端(SOTA)アプローチよりも3$times$高速であることがわかった。
論文 参考訳(メタデータ) (2023-12-01T14:52:59Z) - QD-BEV : Quantization-aware View-guided Distillation for Multi-view 3D
Object Detection [57.019527599167255]
BEV (bird-eye-view) に基づく多視点3D検出は、最近大幅に改善されている。
本稿では,BEVタスクに量子化を直接適用することで,トレーニングが不安定になり,性能劣化が許容できないことを示す。
QD-BEVにより,新しいビュー誘導蒸留(VGD)の目標が実現され,QAT(量子化対応トレーニング)の安定化が図られ,モデル性能が向上する。
論文 参考訳(メタデータ) (2023-08-21T07:06:49Z) - Fast-BEV: A Fast and Strong Bird's-Eye View Perception Baseline [76.48192454417138]
Bird's-Eye View (BEV)の表現は、次世代自動運転車(AV)の認識の基礎として期待されている。
本稿では,車載チップ上で高速なBEV認識を実現するフレームワークであるFast-BEVを提案する。
論文 参考訳(メタデータ) (2023-01-29T18:43:31Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z) - M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文 参考訳(メタデータ) (2022-04-11T13:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。