論文の概要: BridgeTA: Bridging the Representation Gap in Knowledge Distillation via Teacher Assistant for Bird's Eye View Map Segmentation
- arxiv url: http://arxiv.org/abs/2508.09599v1
- Date: Wed, 13 Aug 2025 08:28:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.812806
- Title: BridgeTA: Bridging the Representation Gap in Knowledge Distillation via Teacher Assistant for Bird's Eye View Map Segmentation
- Title(参考訳): BridgeTA:Bird's Eye View Map Segmentationのための教師アシスタントによる知識蒸留における表現ギャップのブリッジ
- Authors: Beomjun Kim, Suhan Woo, Sejong Heo, Euntai Kim,
- Abstract要約: カメラのみのアプローチはLiDARの代替手段として注目されているが、それでもLiDAR-Camera (LC) 融合方式に遅れを取っている。
本稿では,LCフュージョンとカメラ専用モデルとの表現ギャップを埋める,費用対効果の高い蒸留フレームワークであるBridgeTAを紹介する。
提案手法は,カメラのみのベースラインよりも4.2% mIoUの改善を実現し,他の最先端KD法よりも最大45%向上した。
- 参考スコア(独自算出の注目度): 17.072492774587456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bird's-Eye-View (BEV) map segmentation is one of the most important and challenging tasks in autonomous driving. Camera-only approaches have drawn attention as cost-effective alternatives to LiDAR, but they still fall behind LiDAR-Camera (LC) fusion-based methods. Knowledge Distillation (KD) has been explored to narrow this gap, but existing methods mainly enlarge the student model by mimicking the teacher's architecture, leading to higher inference cost. To address this issue, we introduce BridgeTA, a cost-effective distillation framework to bridge the representation gap between LC fusion and Camera-only models through a Teacher Assistant (TA) network while keeping the student's architecture and inference cost unchanged. A lightweight TA network combines the BEV representations of the teacher and student, creating a shared latent space that serves as an intermediate representation. To ground the framework theoretically, we derive a distillation loss using Young's Inequality, which decomposes the direct teacher-student distillation path into teacher-TA and TA-student dual paths, stabilizing optimization and strengthening knowledge transfer. Extensive experiments on the challenging nuScenes dataset demonstrate the effectiveness of our method, achieving an improvement of 4.2% mIoU over the Camera-only baseline, up to 45% higher than the improvement of other state-of-the-art KD methods.
- Abstract(参考訳): Bird's-Eye-View (BEV) マップセグメンテーションは、自動運転において最も重要かつ困難なタスクの1つである。
カメラのみのアプローチはLiDARの代替手段として注目されているが、それでもLiDAR-Camera (LC) 融合方式に遅れを取っている。
知識蒸留(KD)はこのギャップを狭めるために研究されてきたが、既存の手法は主に教師のアーキテクチャを模倣して学生モデルを拡大し、推論コストを高くする。
この問題を解決するために,BridgeTAは,LC融合とカメラのみのモデル間の表現ギャップを,学生のアーキテクチャや推論コストを一定に保ちつつ,教師アシスタント(TA)ネットワークを介して橋渡しする,費用対効果の高い蒸留フレームワークである。
軽量TAネットワークは、教師と学生のBEV表現を組み合わせて、中間表現として機能する共有潜在空間を作成する。
この枠組みを理論的に基礎づけるために、Young's Inequality を用いた蒸留損失を導出し、教師-TA と TA-Student の2つの経路に分割し、最適化の安定化と知識伝達の強化を図る。
挑戦的なnuScenesデータセットに関する大規模な実験により、カメラのみのベースラインよりも4.2% mIoUの改善が達成され、他の最先端KD手法よりも45%高い結果が得られた。
関連論文リスト
- Gap Preserving Distillation by Building Bidirectional Mappings with A Dynamic Teacher [43.678380057638016]
Gap Preserving Distillation (GPD) 法は、生徒にこのギャップを埋めるように訓練すると共に、スクラッチから追加の動的教師モデルを訓練する。
実験では、GPDはCNNとトランスフォーマーアーキテクチャの両方で既存の蒸留法よりも大幅に優れている。
GPDはまた、スクラッチからのトレーニングや微調整を含む事前訓練を受けた教師なしでシナリオを一般化し、ResNet18では1.80%と0.89%の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-10-05T12:29:51Z) - MapDistill: Boosting Efficient Camera-based HD Map Construction via Camera-LiDAR Fusion Model Distillation [13.057096630912952]
我々は,KD(Knowledge Distillation)というアイデアを初めて,効率的なHDマップ構築に利用した。
我々は、高性能カメラ-LiDAR融合モデルから軽量カメラ専用モデルへ知識を伝達する、MapDistillと呼ばれる新しいKDベースのアプローチを導入する。
論文 参考訳(メタデータ) (2024-07-16T13:00:20Z) - Relative Difficulty Distillation for Semantic Segmentation [54.76143187709987]
我々は,Relative Difficulty Distillation (RDD) というセマンティックセグメンテーションのための画素レベルのKDパラダイムを提案する。
RDDにより、教師ネットワークは、追加の最適化目標を伴わずに、学習焦点に対する効果的なガイダンスを提供することができる。
我々の研究は、RDDが既存のKDメソッドと統合して、上位パフォーマンスバウンダリを改善できることを示します。
論文 参考訳(メタデータ) (2024-07-04T08:08:25Z) - TSCM: A Teacher-Student Model for Vision Place Recognition Using Cross-Metric Knowledge Distillation [6.856317526681759]
視覚的位置認識は、移動ロボットの自律的な探索とナビゲーションにおいて重要な役割を果たす。
既存の手法では、強力だが大規模なネットワークを利用することでこれを克服している。
本稿では,TSCMと呼ばれる高性能な教師と軽量な学生蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-02T02:29:41Z) - One-for-All: Bridge the Gap Between Heterogeneous Architectures in
Knowledge Distillation [69.65734716679925]
知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。
既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。
我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
論文 参考訳(メタデータ) (2023-10-30T11:13:02Z) - Cross Architecture Distillation for Face Recognition [49.55061794917994]
本研究では,教師にプロンプトを組み込むことで,蒸留専門知識の管理を可能にする適応型プロンプト教師ネットワーク(APT)を開発した。
一般的な顔のベンチマークと2つの大規模な検証セットによる実験は,本手法の優位性を実証している。
論文 参考訳(メタデータ) (2023-06-26T12:54:28Z) - Wasserstein Contrastive Representation Distillation [114.24609306495456]
We propose Wasserstein Contrastive Representation Distillation (WCoRD) which leverages both primal and dual form of Wasserstein distance for knowledge distillation。
二重形式はグローバルな知識伝達に使用され、教師と学生のネットワーク間の相互情報の低い境界を最大化する対照的な学習目標をもたらします。
実験では、提案されたWCoRD法が特権情報蒸留、モデル圧縮およびクロスモーダル転送における最先端のアプローチを上回ることを実証した。
論文 参考訳(メタデータ) (2020-12-15T23:43:28Z) - Differentiable Feature Aggregation Search for Knowledge Distillation [47.94874193183427]
単教師蒸留フレームワークにおける多教師蒸留を模倣する特徴集約について紹介する。
DFAは、ニューラルネットワーク探索においてDARTSによって動機付けられた2段階の微分可能特徴集合探索法である。
実験の結果,DFAはCIFAR-100およびCINIC-10データセットの既存手法よりも優れていた。
論文 参考訳(メタデータ) (2020-08-02T15:42:29Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。