論文の概要: Distilling Future Temporal Knowledge with Masked Feature Reconstruction for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2512.08247v1
- Date: Tue, 09 Dec 2025 05:01:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.81615
- Title: Distilling Future Temporal Knowledge with Masked Feature Reconstruction for 3D Object Detection
- Title(参考訳): 3次元物体検出のためのマスク付き特徴再構成による将来的時間的知識の蒸留
- Authors: Haowen Zheng, Hu Zhu, Lu Deng, Weihao Gu, Yang Yang, Yanyan Liang,
- Abstract要約: カメラによる時間的3D物体検出は、自律走行において驚くべき結果を示している。
知識蒸留は、オフラインモデルからオンラインモデルにリッチな情報を転送するための魅力的なフレームワークである。
オフラインの教師モデルからオンラインの学生モデルへ、将来のフレーム知識を効果的に転送する、スパースクエリベースのアプローチであるFuture Temporal Knowledge Distillation (FTKD)を提案する。
- 参考スコア(独自算出の注目度): 12.060969007627405
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Camera-based temporal 3D object detection has shown impressive results in autonomous driving, with offline models improving accuracy by using future frames. Knowledge distillation (KD) can be an appealing framework for transferring rich information from offline models to online models. However, existing KD methods overlook future frames, as they mainly focus on spatial feature distillation under strict frame alignment or on temporal relational distillation, thereby making it challenging for online models to effectively learn future knowledge. To this end, we propose a sparse query-based approach, Future Temporal Knowledge Distillation (FTKD), which effectively transfers future frame knowledge from an offline teacher model to an online student model. Specifically, we present a future-aware feature reconstruction strategy to encourage the student model to capture future features without strict frame alignment. In addition, we further introduce future-guided logit distillation to leverage the teacher's stable foreground and background context. FTKD is applied to two high-performing 3D object detection baselines, achieving up to 1.3 mAP and 1.3 NDS gains on the nuScenes dataset, as well as the most accurate velocity estimation, without increasing inference cost.
- Abstract(参考訳): カメラベースの時間的3Dオブジェクト検出は、将来のフレームを使用してオフラインモデルによる精度の向上とともに、自律運転において驚くべき結果を示している。
知識蒸留(KD)は、オフラインモデルからオンラインモデルへリッチな情報を転送するための魅力的なフレームワークである。
しかし, 従来のKD法は, 厳密なフレームアライメントや時間的関係蒸留に主眼を置いているため, 将来的な枠組みを見落としているため, オンラインモデルでは, 将来的な知識を効果的に習得することが困難である。
そこで本研究では,オフライン教師モデルからオンライン学生モデルへのフレーム知識の伝達を効果的に行う,スパースクエリベースのアプローチであるFuture Temporal Knowledge Distillation (FTKD)を提案する。
具体的には,学生モデルに,厳密なフレームアライメントを伴わずに将来の特徴を捉えることを奨励する機能再構築戦略を提案する。
さらに,教師の安定な前景と背景環境を活用するために,将来誘導ロジット蒸留を導入する。
FTKDは2つの高性能な3Dオブジェクト検出ベースラインに適用され、nuScenesデータセット上で最大1.3mAPと1.3NDSゲインを達成する。
関連論文リスト
- TREND: Unsupervised 3D Representation Learning via Temporal Forecasting for LiDAR Perception [39.3873954435857]
TRENDは、教師なし3次元表現学習のための時間予測に関する最初の研究である。
我々は、NuScenes, Once, NuScenesを含む一般的なデータセット上で、下流3Dオブジェクト検出タスク上でTRENDを評価する。
実験の結果, TRENDは従来のSOTA教師なし3D事前学習法と比較して90%向上した。
論文 参考訳(メタデータ) (2024-12-04T06:17:24Z) - SAM-Guided Masked Token Prediction for 3D Scene Understanding [20.257222696422215]
ファンデーションモデルは2Dタスクのパフォーマンスを大幅に向上させており、Bridge3Dのような最近の研究はこれらのモデルを用いて3Dシーン理解を改善している。
しかし、3次元データセットにおける2次元と3次元の表現の不一致や長期分布といった課題は、知識蒸留の有効性を制限している。
本稿では,3次元変圧器構造と地域レベルの知識蒸留をシームレスに整合させる新しいSAM誘導トークン化手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T01:38:59Z) - 4D Contrastive Superflows are Dense 3D Representation Learners [62.433137130087445]
我々は,LiDARとカメラのペアを連続的に利用して事前学習の目的を確立するための,新しいフレームワークであるSuperFlowを紹介する。
学習効率をさらに向上するため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。
論文 参考訳(メタデータ) (2024-07-08T17:59:54Z) - Weak-to-Strong 3D Object Detection with X-Ray Distillation [75.47580744933724]
本稿では,既存の任意の3Dオブジェクト検出フレームワークにシームレスに統合する多目的手法を提案する。
オブジェクト・コンプリートフレームを用いたX線蒸留は、教師付き設定と半教師付き設定の両方に適している。
提案手法は,半教師あり学習における最先端の手法を1-1.5mAPで超越する。
論文 参考訳(メタデータ) (2024-03-31T13:09:06Z) - FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with Pre-trained Vision-Language Models [59.13757801286343]
クラス増分学習(class-incremental learning)は、モデルが限られたデータで漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
本稿では,特徴空間の不整合のための冗長特徴除去器 (RFE) と,重要な雑音に対する空間ノイズ補償器 (SNC) の2つの新しいコンポーネントを備えたFILP-3Dフレームワークを紹介する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z) - 3D Point Cloud Pre-training with Knowledge Distillation from 2D Images [128.40422211090078]
本稿では,2次元表現学習モデルから直接知識を取得するために,3次元ポイントクラウド事前学習モデルの知識蒸留手法を提案する。
具体的には、3Dポイントクラウドから概念特徴を抽出し、2D画像からの意味情報と比較するクロスアテンション機構を提案する。
このスキームでは,2次元教師モデルに含まれるリッチな情報から,クラウド事前学習モデルを直接学習する。
論文 参考訳(メタデータ) (2022-12-17T23:21:04Z) - 3DMotion-Net: Learning Continuous Flow Function for 3D Motion Prediction [12.323767993152968]
本研究では,従来の2つの連続したフレームから3次元物体の3次元運動を予測する問題に対処する。
本稿では,ディープニューラルネットワークのパワーを活用して3次元点雲の連続流れ関数を学習する自己教師型アプローチを提案する。
D-FAUST,SCAPE,TOSCAベンチマークデータセットについて広範な実験を行い,本手法が時間的に一貫性のない入力を処理可能であることを示す。
論文 参考訳(メタデータ) (2020-06-24T17:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。