論文の概要: Revisiting Token Compression for Accelerating ViT-based Sparse Multi-View 3D Object Detectors
- arxiv url: http://arxiv.org/abs/2604.14563v1
- Date: Thu, 16 Apr 2026 02:46:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.69288
- Title: Revisiting Token Compression for Accelerating ViT-based Sparse Multi-View 3D Object Detectors
- Title(参考訳): ViTベーススパース多視点オブジェクト検出器の高速化のためのトークン圧縮の再検討
- Authors: Mingqian Ji, Shanshan Zhang, Jian Yang,
- Abstract要約: SEPatch3Dは、粗いパッチ内の意味情報を保存しながら、パッチサイズを動的に調整する新しいフレームワークである。
nuScenesとArgoverse 2バリデーションセットの実験では、SEPatch3DはStreamPETRベースラインよりも最大57%高速な推論を実現し、最先端のToC3Dよりも20パーセント高速である。
- 参考スコア(独自算出の注目度): 18.684602624559734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformer (ViT)-based sparse multi-view 3D object detectors have achieved remarkable accuracy but still suffer from high inference latency due to heavy token processing. To accelerate these models, token compression has been widely explored. However, our revisit of existing strategies, such as token pruning, merging, and patch size enlargement, reveals that they often discard informative background cues, disrupt contextual consistency, and lose fine-grained semantics, negatively affecting 3D detection. To overcome these limitations, we propose SEPatch3D, a novel framework that dynamically adjusts patch sizes while preserving critical semantic information within coarse patches. Specifically, we design Spatiotemporal-aware Patch Size Selection (SPSS) that assigns small patches to scenes containing nearby objects to preserve fine details and large patches to background-dominated scenes to reduce computation cost. To further mitigate potential detail loss, Informative Patch Selection (IPS) selects the informative patches for feature refinement, and Cross-Granularity Feature Enhancement (CGFE) injects fine-grained details into selected coarse patches, enriching semantic features. Experiments on the nuScenes and Argoverse 2 validation sets show that SEPatch3D achieves up to \textbf{57\%} faster inference than the StreamPETR baseline and \textbf{20\%} higher efficiency than the state-of-the-art ToC3D-faster, while preserving comparable detection accuracy. Code is available at https://github.com/Mingqj/SEPatch3D.
- Abstract(参考訳): Vision Transformer (ViT) ベースのスパースマルチビュー3Dオブジェクト検出器は、目覚ましい精度を達成したが、重いトークン処理のために高い推論遅延に悩まされている。
これらのモデルを加速するため、トークン圧縮は広く研究されている。
しかし,トークンプルーニングやマージ,パッチサイズ拡大といった既存の戦略を再検討した結果,情報的背景手がかりを排除したり,コンテキスト整合性を損なったり,微粒なセマンティクスを失い,3D検出に悪影響を及ぼすことが判明した。
これらの制限を克服するため、我々は、粗いパッチ内で重要な意味情報を保存しながら、パッチサイズを動的に調整する新しいフレームワークであるSEPatch3Dを提案する。
具体的には,SPSS (Spatiotemporal-aware Patch Size Selection) を設計し,周辺オブジェクトを含むシーンに小さなパッチを割り当てて,背景が支配するシーンに細部と大きなパッチを保存し,計算コストを削減する。
潜在的な詳細損失を軽減するため、Informative Patch Selection (IPS)は機能改善のための情報パッチを選択し、Cross-Granularity Feature Enhancement (CGFE)は、選択された粗いパッチにきめ細かい詳細を注入し、セマンティックな特徴を豊かにする。
nuScenesとArgoverse 2バリデーションセットの実験では、SEPatch3DはStreamPETRベースラインよりも最大で \textbf{57\%} の高速な推論を実現し、最先端のToC3Dよりも高速なToC3Dの精度を保ちながら、同等な検出精度を保っている。
コードはhttps://github.com/Mingqj/SEPatch3Dで入手できる。
関連論文リスト
- PatchBlock: A Lightweight Defense Against Adversarial Patches for Embedded EdgeAI Devices [5.082257334702858]
アドリアックは、EdgeAIアプリケーションにマシンラーニングモデルを確実にデプロイする上で、大きな課題となる。
画像中の逆パッチを検出し中和するフレームワークであるPatchBlockを提案する。
PatchBlockは頑丈さを継続的に改善し、強力なパッチアタックのモデル精度の77%を回復することを示す。
論文 参考訳(メタデータ) (2026-01-01T15:04:16Z) - ChangingGrounding: 3D Visual Grounding in Changing Scenes [92.00984845186679]
現実世界のロボットは自然言語からオブジェクトをローカライズするが、周囲のシーンは変化し続けている。
既存の3Dビジュアルグラウンドティング(3DVG)手法のほとんどは、再構築された最新の点雲を前提としている。
エージェントが過去の観測をいかにうまく活用できるかを明示的に測定する最初のベンチマークであるChangeingGroundingを紹介します。
論文 参考訳(メタデータ) (2025-10-16T17:59:16Z) - SparseFormer: Detecting Objects in HRW Shots via Sparse Vision Transformer [62.11796778482088]
本稿では,近接撮影とHRW撮影のオブジェクト検出のギャップを埋めるために,SparseFormerと呼ばれるモデル非依存のスパース視覚変換器を提案する。
提案されたSparseFormerは、オブジェクトを含む可能性のあるスパース分散ウィンドウを精査するために、注意トークンを選択的に使用する。
2つのHRWベンチマークであるPANDAとDOTA-v1.0の実験により、提案されたSparseFormerは、最先端のアプローチよりも検出精度(最大5.8%)と速度(最大3倍)を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-02-11T03:21:25Z) - Make Your ViT-based Multi-view 3D Detectors Faster via Token Compression [78.93023152602525]
スロー推論速度は、自律運転のようなリアルタイムの要求の高いタスクにマルチビュー3D検出器を配置する上で最も重要な問題の一つである。
TokenCompression3D (ToC3D) と呼ばれるシンプルで効果的な方法を提案する。
提案手法は, 最大30%の推論スピードアップで最近のSOTAの性能をほぼ維持できる。
論文 参考訳(メタデータ) (2024-09-01T06:58:08Z) - Semi-supervised 3D Object Detection with PatchTeacher and PillarMix [71.4908268136439]
現在の半教師付き3Dオブジェクト検出法では、教師が学生に擬似ラベルを生成するのが一般的である。
学生に高品質な擬似ラベルを提供するために,部分的なシーン3Dオブジェクト検出に焦点を当てたPatchTeacherを提案する。
本稿では,PatchTeacherの性能向上のために,Patch Normalizer,Quadrant Align,Fovea Selectionの3つの重要なテクニックを紹介する。
論文 参考訳(メタデータ) (2024-07-13T06:58:49Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。