論文の概要: Distilling Temporal Knowledge with Masked Feature Reconstruction for 3D
Object Detection
- arxiv url: http://arxiv.org/abs/2401.01918v1
- Date: Wed, 3 Jan 2024 08:23:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 16:29:47.978477
- Title: Distilling Temporal Knowledge with Masked Feature Reconstruction for 3D
Object Detection
- Title(参考訳): マスキング特徴再構成による3次元物体検出のための時空間知識の蒸留
- Authors: Haowen Zheng, Dong Cao, Jintao Xu, Rui Ai, Weihao Gu, Yang Yang,
Yanyan Liang
- Abstract要約: 本稿では,教師検出器から長期記憶を取得するための時間知識ディファイラであるTempDistillerを提案する。
機能教師に適用される自己注意操作を通じて、長期的時間的知識を統合することで、再構築対象を定式化する。
提案手法の有効性を nuScenes ベンチマークで検証する。
- 参考スコア(独自算出の注目度): 10.641840385953472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Striking a balance between precision and efficiency presents a prominent
challenge in the bird's-eye-view (BEV) 3D object detection. Although previous
camera-based BEV methods achieved remarkable performance by incorporating
long-term temporal information, most of them still face the problem of low
efficiency. One potential solution is knowledge distillation. Existing
distillation methods only focus on reconstructing spatial features, while
overlooking temporal knowledge. To this end, we propose TempDistiller, a
Temporal knowledge Distiller, to acquire long-term memory from a teacher
detector when provided with a limited number of frames. Specifically, a
reconstruction target is formulated by integrating long-term temporal knowledge
through self-attention operation applied to feature teachers. Subsequently,
novel features are generated for masked student features via a generator.
Ultimately, we utilize this reconstruction target to reconstruct the student
features. In addition, we also explore temporal relational knowledge when
inputting full frames for the student model. We verify the effectiveness of the
proposed method on the nuScenes benchmark. The experimental results show our
method obtain an enhancement of +1.6 mAP and +1.1 NDS compared to the baseline,
a speed improvement of approximately 6 FPS after compressing temporal
knowledge, and the most accurate velocity estimation.
- Abstract(参考訳): 精度と効率のバランスを取ることは、鳥の目視(BEV)3次元物体検出において顕著な課題となる。
従来のカメラベースのBEV手法は、長期の時間情報を組み込むことで優れた性能を発揮するが、そのほとんどは依然として低効率の問題に直面している。
一つの潜在的な解決策は知識蒸留である。
既存の蒸留法は、時間的知識を見越しながら、空間的特徴の再構築のみに焦点を当てている。
そこで本研究では,時間知識ディステレータであるTempDistillerを提案し,限られたフレーム数で教師検出器から長期記憶を取得する。
具体的には、特徴教師に適用されるセルフ・アテンション操作を通じて、長期の時間的知識を統合することで、復興目標を定式化する。
その後、ジェネレータを介して、マスク付き学生機能のための新機能が生成される。
最終的に,この再構成目標を用いて学生の特徴を再構築する。
また,学生モデルのためのフルフレーム入力時の時間的関係知識についても検討する。
提案手法の有効性を nuScenes ベンチマークで検証する。
実験により,本手法は,ベースラインに比べて+1.6 mAPおよび+1.1 NDSの増大,時間的知識の圧縮による約6 FPSの速度向上,そして最も正確な速度推定が得られることを示した。
関連論文リスト
- Instance-aware Multi-Camera 3D Object Detection with Structural Priors
Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。
画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:24:42Z) - D$^2$ST-Adapter: Disentangled-and-Deformable Spatio-Temporal Adapter for Few-shot Action Recognition [60.84084172829169]
大規模な事前訓練された画像モデルに数発のアクション認識を適用することは、ロバストな特徴抽出器を学習するための効果的な戦略であることが証明されている。
D$2$ST-Adapter (Disentangled-and-Deformable Spatio-Temporal Adapter) は,アクション認識に適した新しいチューニングフレームワークである。
論文 参考訳(メタデータ) (2023-12-03T15:40:10Z) - On the Importance of Spatial Relations for Few-shot Action Recognition [109.2312001355221]
本稿では,空間的関係の重要性を考察し,より正確な数発アクション認識法を提案する。
新たな空間アライメントクロストランス(SA-CT)は、空間関係を再調整し、時間情報を組み込む。
実験の結果, 時間的情報を使用しなくても, SA-CTの性能は3/4ベンチマークの時間的手法に匹敵することがわかった。
論文 参考訳(メタデータ) (2023-08-14T12:58:02Z) - SUIT: Learning Significance-guided Information for 3D Temporal Detection [15.237488449422008]
フレーム間の情報融合のためのスパース機能として時間的情報を単純化するSUIT(Significance-gUided Information for 3D Temporal Detection)を学習する。
大規模なnuScenesとデータセットにおいて、SUITは時間融合のメモリとコストを大幅に削減するだけでなく、最先端のベースラインよりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-07-04T16:22:10Z) - Lightning Fast Video Anomaly Detection via Adversarial Knowledge Distillation [106.42167050921718]
本稿では,ビデオ中の異常検出のための非常に高速なフレームレベルモデルを提案する。
複数の高精度なオブジェクトレベルの教師モデルから知識を抽出することで、異常を検出することを学ぶ。
提案モデルでは,これまで聞こえなかった1480 FPSの速度のため,速度と精度の最良のトレードオフを実現している。
論文 参考訳(メタデータ) (2022-11-28T17:50:19Z) - Structured Knowledge Distillation Towards Efficient and Compact
Multi-View 3D Detection [30.74309289544479]
本稿では,視覚のみのBEV検出モデルの効率を向上させるために,構造化知識蒸留フレームワークを提案する。
実験結果から,本手法はnuScenesベンチマークにおいて平均2.16mAPおよび2.27NDSの改善をもたらすことが示された。
論文 参考訳(メタデータ) (2022-11-14T12:51:17Z) - Motion-aware Memory Network for Fast Video Salient Object Detection [15.967509480432266]
我々は、隣接するフレームから現在のフレームの有用な時間情報をVSODの時間枝として抽出する時空間メモリ(STM)ベースのネットワークを設計する。
符号化段階では、電流とその隣接するフレームから高次特徴を用いて高次時間特徴を生成する。
復号化段階では,空間的および時間的分岐に対する効果的な融合戦略を提案する。
提案モデルでは,光学フローなどの前処理を必要とせず,推定時に100FPS近い速度に達することができる。
論文 参考訳(メタデータ) (2022-08-01T15:56:19Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - PointDistiller: Structured Knowledge Distillation Towards Efficient and
Compact 3D Detection [15.79799516495951]
本稿では,点雲を用いた3次元検出のための構造化知識蒸留フレームワークであるPointDistillerを提案する。
PointDistillerには局所蒸留が含まれており、動的グラフ畳み込みと再重み付き学習戦略によって点雲の局所的な幾何学構造を抽出し、蒸留する。
我々の4X圧縮PointPillars学生は、BEVと3Dオブジェクト検出の2.8mAPと3.4mAPの改善を達成し、それぞれ0.9mAPと1.8mAPを上回りました。
論文 参考訳(メタデータ) (2022-05-23T07:40:07Z) - AdaFuse: Adaptive Temporal Fusion Network for Efficient Action
Recognition [68.70214388982545]
テンポラルモデリングは、効率的なビデオアクション認識の鍵である。
我々はAdaFuseと呼ばれる適応時間融合ネットワークを導入し、現在の特徴マップと過去の特徴マップからチャネルを融合する。
我々の手法は、最先端の手法に匹敵する精度で、約40%の計算節約を達成できる。
論文 参考訳(メタデータ) (2021-02-10T23:31:02Z) - Fast Video Salient Object Detection via Spatiotemporal Knowledge
Distillation [20.196945571479002]
本稿では,映像の有能な物体検出に適した軽量ネットワークを提案する。
具体的には,空間的特徴を洗練させるために,サリエンシガイダンスの埋め込み構造と空間知識蒸留を組み合わせた。
時間的側面において,ネットワークが頑健な時間的特徴を学習することのできる時間的知識蒸留戦略を提案する。
論文 参考訳(メタデータ) (2020-10-20T04:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。