論文の概要: Make Your ViT-based Multi-view 3D Detectors Faster via Token Compression
- arxiv url: http://arxiv.org/abs/2409.00633v1
- Date: Sun, 1 Sep 2024 06:58:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 13:27:03.906277
- Title: Make Your ViT-based Multi-view 3D Detectors Faster via Token Compression
- Title(参考訳): ViTベースのマルチビュー3DディテクターをToken Compressionで高速化
- Authors: Dingyuan Zhang, Dingkang Liang, Zichang Tan, Xiaoqing Ye, Cheng Zhang, Jingdong Wang, Xiang Bai,
- Abstract要約: スロー推論速度は、自律運転のようなリアルタイムの要求の高いタスクにマルチビュー3D検出器を配置する上で最も重要な問題の一つである。
TokenCompression3D (ToC3D) と呼ばれるシンプルで効果的な方法を提案する。
提案手法は, 最大30%の推論スピードアップで最近のSOTAの性能をほぼ維持できる。
- 参考スコア(独自算出の注目度): 78.93023152602525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Slow inference speed is one of the most crucial concerns for deploying multi-view 3D detectors to tasks with high real-time requirements like autonomous driving. Although many sparse query-based methods have already attempted to improve the efficiency of 3D detectors, they neglect to consider the backbone, especially when using Vision Transformers (ViT) for better performance. To tackle this problem, we explore the efficient ViT backbones for multi-view 3D detection via token compression and propose a simple yet effective method called TokenCompression3D (ToC3D). By leveraging history object queries as foreground priors of high quality, modeling 3D motion information in them, and interacting them with image tokens through the attention mechanism, ToC3D can effectively determine the magnitude of information densities of image tokens and segment the salient foreground tokens. With the introduced dynamic router design, ToC3D can weigh more computing resources to important foreground tokens while compressing the information loss, leading to a more efficient ViT-based multi-view 3D detector. Extensive results on the large-scale nuScenes dataset show that our method can nearly maintain the performance of recent SOTA with up to 30% inference speedup, and the improvements are consistent after scaling up the ViT and input resolution. The code will be made at https://github.com/DYZhang09/ToC3D.
- Abstract(参考訳): スロー推論速度は、自律運転のようなリアルタイムの要求の高いタスクにマルチビュー3D検出器を配置する上で最も重要な問題の一つである。
多くのスパースクエリーベースの手法が既に3D検出器の効率改善を試みているが、特に視覚変換器(ViT)を高性能に使用する場合、バックボーンを考慮しない。
そこで本稿では,トークン圧縮による多視点3D検出のための効率的なViTバックボーンについて検討し,TokenCompression3D (ToC3D) と呼ばれるシンプルな手法を提案する。
歴史オブジェクトクエリを高品質のフォアグラウンド先行として活用し、3Dモーション情報をモデル化し、アテンション機構を介して画像トークンと対話することにより、ToC3Dは画像トークンの情報密度の規模を効果的に決定し、聖なるフォアグラウンドトークンを分割することができる。
導入された動的ルータの設計により、ToC3Dは情報損失を圧縮しながら重要なフォアグラウンドトークンにより多くのコンピューティングリソースを重み付けすることができ、より効率的なViTベースのマルチビュー3D検出器となる。
大規模なnuScenesデータセットの大規模な結果から,提案手法は最大30%の推論スピードアップで最近のSOTAの性能をほぼ維持でき,ViTのスケールアップと入力解像度の向上により改善が一貫したことを示す。
コードはhttps://github.com/DYZhang09/ToC3Dで作成されます。
関連論文リスト
- CT3D++: Improving 3D Object Detection with Keypoint-induced Channel-wise Transformer [42.68740105997167]
手作りの最小限の設計で3Dオブジェクト検出を行うフレームワークを2つ導入する。
まず,本提案では,各提案において,生点ベースの埋め込み,標準トランスフォーマーエンコーダ,チャンネルワイドデコーダを順次実行するCT3Dを提案する。
次に、幾何学的および意味論的融合に基づく埋め込みを組み込んだCT3D++と呼ばれる拡張ネットワークを提案し、より価値があり包括的な提案認識情報を取り出す。
論文 参考訳(メタデータ) (2024-06-12T12:40:28Z) - FastOcc: Accelerating 3D Occupancy Prediction by Fusing the 2D
Bird's-Eye View and Perspective View [46.81548000021799]
自律運転において、3D占有率予測は、より包括的な3Dシーンの理解のために、ボクセル的なステータスとセマンティックラベルを出力する。
近年,ビュートランスフォーメーション技術,地味ラベル生成,精巧なネットワーク設計など,この課題のさまざまな側面を幅広く研究している。
FastOccと呼ばれる新しい手法が提案され、精度を維持しながらモデルを高速化する。
Occ3D-nuScenesベンチマークの実験は、FastOccが高速な推論速度を達成することを示した。
論文 参考訳(メタデータ) (2024-03-05T07:01:53Z) - Instant3D: Instant Text-to-3D Generation [101.25562463919795]
Instant3Dと呼ばれる高速テキストから3D生成のための新しいフレームワークを提案する。
Instant3Dはフィードフォワードネットワークの単一実行で1秒未満で、目に見えないテキストプロンプトのための3Dオブジェクトを作成することができる。
論文 参考訳(メタデータ) (2023-11-14T18:59:59Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Cross Modal Transformer: Towards Fast and Robust 3D Object Detection [34.920322396476934]
そこで我々は,CMT (Cross Modal Transformer) と呼ばれる頑健な3次元検出器を提案する。
CMTは画像とポイントのクラウドを入力として取り、正確な3Dバウンディングボックスを直接出力する。
高速な推論速度を維持しながら、nuScenesテストセット上で74.1%のNDSを達成する。
論文 参考訳(メタデータ) (2023-01-03T18:36:52Z) - Exploiting More Information in Sparse Point Cloud for 3D Single Object
Tracking [9.693724357115762]
3Dオブジェクトトラッキングは、3Dコンピュータビジョンにおける重要なタスクである。
点雲の空間性は、類似性を計算し、対象を見つけるのを難しくする。
本稿では3次元オブジェクト追跡のためのスパース・トゥ・デンス・トランスフォーマー・ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-02T13:38:30Z) - Omni3D: A Large Benchmark and Model for 3D Object Detection in the Wild [32.05421669957098]
大規模なデータセットとスケーラブルなソリューションは、2D認識において前例のない進歩をもたらした。
我々はOmni3Dと呼ばれる大規模なベンチマークを導入することで3Dオブジェクト検出の課題を再考する。
より大規模なOmni3Dおよび既存のベンチマークにおいて、Cube R-CNNが以前の作業より優れていることを示す。
論文 参考訳(メタデータ) (2022-07-21T17:56:22Z) - Improving 3D Object Detection with Channel-wise Transformer [58.668922561622466]
我々は手作りの最小限の設計で2段階の3Dオブジェクト検出フレームワーク(CT3D)を提案する。
CT3Dは、提案対応の埋め込みとチャンネルワイドコンテキストアグリゲーションを同時に行う。
これはKITTIテスト3D検出ベンチマークで中等車カテゴリーで81.77%のAPを達成した。
論文 参考訳(メタデータ) (2021-08-23T02:03:40Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - Fast and Furious: Real Time End-to-End 3D Detection, Tracking and Motion
Forecasting with a Single Convolutional Net [93.51773847125014]
本研究では,3Dセンサが捉えたデータを用いて,3D検出,追跡,動作予測を共同で推論する,新たなディープニューラルネットワークを提案する。
鳥の眼球を3次元の世界として表現し,空間と時間にまたがる3次元畳み込みを行う。
論文 参考訳(メタデータ) (2020-12-22T22:43:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。