論文の概要: Accelerate 3D Object Detection Models via Zero-Shot Attention Key Pruning
- arxiv url: http://arxiv.org/abs/2503.08101v2
- Date: Wed, 12 Mar 2025 04:03:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 12:14:33.283030
- Title: Accelerate 3D Object Detection Models via Zero-Shot Attention Key Pruning
- Title(参考訳): Zero-Shot Attention Key Pruningによる3次元物体検出モデルの高速化
- Authors: Lizhen Xu, Xiuxiu Bai, Xiaojun Jia, Jianwu Fang, Shanmin Pang,
- Abstract要約: 3次元オブジェクト検出モデルにおけるトランスフォーマーデコーダのゼロショット実行時プルーニング法を提案する。
提案手法は,ToC3Dモデルのトランスデコーダにおける1.99倍の高速化を実現する。
- 参考スコア(独自算出の注目度): 15.40654753734657
- License:
- Abstract: Query-based methods with dense features have demonstrated remarkable success in 3D object detection tasks. However, the computational demands of these models, particularly with large image sizes and multiple transformer layers, pose significant challenges for efficient running on edge devices. Existing pruning and distillation methods either need retraining or are designed for ViT models, which are hard to migrate to 3D detectors. To address this issue, we propose a zero-shot runtime pruning method for transformer decoders in 3D object detection models. The method, termed tgGBC (trim keys gradually Guided By Classification scores), systematically trims keys in transformer modules based on their importance. We expand the classification score to multiply it with the attention map to get the importance score of each key and then prune certain keys after each transformer layer according to their importance scores. Our method achieves a 1.99x speedup in the transformer decoder of the latest ToC3D model, with only a minimal performance loss of less than 1%. Interestingly, for certain models, our method even enhances their performance. Moreover, we deploy 3D detectors with tgGBC on an edge device, further validating the effectiveness of our method. The code can be found at https://github.com/iseri27/tg_gbc.
- Abstract(参考訳): 厳密な特徴を持つクエリベースの手法は、3Dオブジェクト検出タスクにおいて顕著な成功を収めている。
しかし、これらのモデルの計算要求、特に大きな画像サイズと複数のトランスフォーマー層では、エッジデバイス上での効率的な実行には大きな課題が生じる。
既存のプルーニングと蒸留の方法は、再訓練を必要とするか、あるいは3D検出器への移行が難しいViTモデルのために設計されている。
この問題に対処するために,3次元オブジェクト検出モデルにおけるトランスフォーマーデコーダのゼロショット実行時プルーニング手法を提案する。
tgGBC (trim key gradually Guided By Classification scores) と呼ばれるこの手法は、その重要性に基づいてトランスフォーマーモジュール内のキーを体系的にトリムする。
分類スコアを拡張して、アテンションマップに乗じて、各キーの重要度を求め、その重要度に応じて変換器層の後、特定のキーをプーンする。
提案手法は,ToC3Dモデルのトランスデコーダにおける1.99倍の高速化を実現する。
興味深いことに、あるモデルでは、本手法は性能を向上する。
さらに,エッジデバイスにtgGBCの3D検出器を配置し,本手法の有効性を検証した。
コードはhttps://github.com/iseri27/tg_gbc.comで見ることができる。
関連論文リスト
- Cubify Anything: Scaling Indoor 3D Object Detection [4.338330763853994]
本研究では,コモディティハンドヘルドデバイスから取得した1つのRGB(-D)フレームについて,屋内3次元物体検出について考察する。
このデータセットは、1K以上の高精度のレーザースキャンシーンに400K以上の3Dオブジェクトを徹底的にラベル付けする。
次に,RGB(-D)入力から得られる2D特徴から直接3Dボックスを予測し,3Dを点数やボクセルベース表現で操作する代わりに,完全なトランスフォーマー3Dオブジェクト検出ベースラインであるCuTRを確立する。
論文 参考訳(メタデータ) (2024-12-05T18:59:09Z) - 3DGS-CD: 3D Gaussian Splatting-based Change Detection for Physical Object Rearrangement [2.2122801766964795]
3DGS-CDは3Dシーンにおける物体の物理的配置を検出する最初の3Dガウス散乱(3DGS)に基づく手法である。
提案手法では,異なる時間に撮影された2つの不整合画像を比較して3次元オブジェクトレベルの変化を推定する。
提案手法は,18秒以内のスパース画像を用いて,散在する環境の変化を正確に識別することができる。
論文 参考訳(メタデータ) (2024-11-06T07:08:41Z) - Make Your ViT-based Multi-view 3D Detectors Faster via Token Compression [78.93023152602525]
スロー推論速度は、自律運転のようなリアルタイムの要求の高いタスクにマルチビュー3D検出器を配置する上で最も重要な問題の一つである。
TokenCompression3D (ToC3D) と呼ばれるシンプルで効果的な方法を提案する。
提案手法は, 最大30%の推論スピードアップで最近のSOTAの性能をほぼ維持できる。
論文 参考訳(メタデータ) (2024-09-01T06:58:08Z) - Hourglass Tokenizer for Efficient Transformer-Based 3D Human Pose Estimation [73.31524865643709]
本稿では,Hourglass Tokenizer (HoT) と呼ばれるプラグアンドプレイのプルーニング・アンド・リカバリフレームワークを提案する。
私たちのHoDTは、冗長なフレームのポーズトークンのプルーニングから始まり、フル長のトークンを復元することで終了します。
提案手法は,従来のVPTモデルと比較して高い効率性と推定精度を両立させることができる。
論文 参考訳(メタデータ) (2023-11-20T18:59:51Z) - S$^3$-MonoDETR: Supervised Shape&Scale-perceptive Deformable Transformer for Monocular 3D Object Detection [21.96072831561483]
本稿では,モノクロ3次元物体検出のためのSupervised Shape&Scale-perceptive Deformable Attention' (S$3$-DA) モジュールを提案する。
これにより、S$3$-DAは、任意のカテゴリに属するクエリポイントに対する受容的フィールドを効果的に推定し、堅牢なクエリ機能を生成することができる。
KITTIとOpenデータセットの実験では、S$3$-DAが検出精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-09-02T12:36:38Z) - 3D Small Object Detection with Dynamic Spatial Pruning [62.72638845817799]
本稿では,3次元小物体検出のための効率的な特徴解析手法を提案する。
空間分解能の高いDSPDet3Dというマルチレベル3次元検出器を提案する。
ほぼ全ての物体を検知しながら、4500k以上のポイントからなる建物全体を直接処理するには2秒もかからない。
論文 参考訳(メタデータ) (2023-05-05T17:57:04Z) - Hierarchical Point Attention for Indoor 3D Object Detection [111.04397308495618]
本研究は、点ベース変圧器検出器の汎用階層設計として、2つの新しい注意操作を提案する。
まず、よりきめ細かい特徴学習を可能にするために、シングルスケールの入力機能からマルチスケールトークンを構築するマルチスケール注意(MS-A)を提案する。
第2に,適応型アテンション領域を持つサイズ適応型ローカルアテンション(Local-A)を提案する。
論文 参考訳(メタデータ) (2023-01-06T18:52:12Z) - Embracing Single Stride 3D Object Detector with Sparse Transformer [63.179720817019096]
自律走行のためのLiDARを用いた3次元物体検出では、物体サイズと入力シーンサイズとの比が2次元検出の場合に比べて有意に小さい。
多くの3D検出器は2D検出器の一般的な慣習に従っており、点雲の定量化後も特徴マップを分解する。
本稿では,SST(Single-stride Sparse Transformer)を提案する。
論文 参考訳(メタデータ) (2021-12-13T02:12:02Z) - Improving 3D Object Detection with Channel-wise Transformer [58.668922561622466]
我々は手作りの最小限の設計で2段階の3Dオブジェクト検出フレームワーク(CT3D)を提案する。
CT3Dは、提案対応の埋め込みとチャンネルワイドコンテキストアグリゲーションを同時に行う。
これはKITTIテスト3D検出ベンチマークで中等車カテゴリーで81.77%のAPを達成した。
論文 参考訳(メタデータ) (2021-08-23T02:03:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。