論文の概要: Hyperbolic Cosine Transformer for LiDAR 3D Object Detection
- arxiv url: http://arxiv.org/abs/2211.05580v1
- Date: Thu, 10 Nov 2022 13:54:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 15:32:59.902717
- Title: Hyperbolic Cosine Transformer for LiDAR 3D Object Detection
- Title(参考訳): LiDAR3次元物体検出のための双曲コサイン変換器
- Authors: Jigang Tong, Fanhang Yang, Sen Yang, Enzeng Dong, Shengzhi Du, Xing
Wang, Xianlin Yi
- Abstract要約: 我々は,LiDAR点雲から3次元物体を検出するための2段階双曲型コサイントランス (ChTR3D) を提案する。
提案したChTR3Dは、線形複雑性におけるコッシュアテンションを適用して、点間のリッチな文脈関係を符号化することで、提案を洗練する。
広く使用されているKITTIデータセットの実験では、バニラアテンションと比較して、コッシュアテンションは競合性能による推論速度を大幅に改善することが示された。
- 参考スコア(独自算出の注目度): 6.2216654973540795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Transformer has achieved great success in computer vision. However,
it is constrained because the spatial and temporal complexity grows
quadratically with the number of large points in 3D object detection
applications. Previous point-wise methods are suffering from time consumption
and limited receptive fields to capture information among points. In this
paper, we propose a two-stage hyperbolic cosine transformer (ChTR3D) for 3D
object detection from LiDAR point clouds. The proposed ChTR3D refines proposals
by applying cosh-attention in linear computation complexity to encode rich
contextual relationships among points. The cosh-attention module reduces the
space and time complexity of the attention operation. The traditional softmax
operation is replaced by non-negative ReLU activation and
hyperbolic-cosine-based operator with re-weighting mechanism. Extensive
experiments on the widely used KITTI dataset demonstrate that, compared with
vanilla attention, the cosh-attention significantly improves the inference
speed with competitive performance. Experiment results show that, among
two-stage state-of-the-art methods using point-level features, the proposed
ChTR3D is the fastest one.
- Abstract(参考訳): 近年、Transformerはコンピュータビジョンにおいて大きな成功を収めている。
しかし、3dオブジェクト検出アプリケーションにおいて、空間的および時間的複雑性は、大きな点の数と二次的に増加するため、制約を受ける。
従来のポイントワイズ手法は、時間消費と限られた受容場に苦しめられ、ポイント間の情報を取り込む。
本稿では,LiDAR点雲からの3次元物体検出のための2段階双曲型コサイン変換器(ChTR3D)を提案する。
提案したChTR3Dは、線形計算複雑性におけるコッシュアテンションを適用して、点間の豊富な文脈関係を符号化することで、提案を洗練する。
cosh-attentionモジュールは、アテンション操作の空間と時間の複雑さを低減する。
従来のソフトマックス操作は、非負のrelu活性化と再重み付け機構を持つ双曲コサインベースの操作に置き換えられる。
広く使われているKITTIデータセットの大規模な実験は、バニラの注意と比較して、コッシュの注意が競合性能と推論速度を大幅に改善することを示した。
実験の結果,ポイントレベル特徴を用いた2段階の最先端手法のうち,提案するchtr3dが最速であることがわかった。
関連論文リスト
- DM3D: Distortion-Minimized Weight Pruning for Lossless 3D Object Detection [42.07920565812081]
本稿では,3次元物体検出のための新しいトレーニング後の重み付け手法を提案する。
事前訓練されたモデルにおける冗長パラメータを決定し、局所性と信頼性の両方において最小限の歪みをもたらす。
本フレームワークは,ネットワーク出力の歪みを最小限に抑え,検出精度を最大に維持することを目的とする。
論文 参考訳(メタデータ) (2024-07-02T09:33:32Z) - Cross-Cluster Shifting for Efficient and Effective 3D Object Detection
in Autonomous Driving [69.20604395205248]
本稿では,自律運転における3次元物体検出のための3次元点検出モデルであるShift-SSDを提案する。
我々は、ポイントベース検出器の表現能力を解き放つために、興味深いクロスクラスタシフト操作を導入する。
我々は、KITTI、ランタイム、nuScenesデータセットに関する広範な実験を行い、Shift-SSDの最先端性能を実証した。
論文 参考訳(メタデータ) (2024-03-10T10:36:32Z) - PTT: Point-Trajectory Transformer for Efficient Temporal 3D Object Detection [66.94819989912823]
時間的3次元物体検出を効率的に行うために,長期記憶が可能な点トラジェクトリ変換器を提案する。
私たちは、メモリバンクのストレージ要件を最小限に抑えるために、現在のフレームオブジェクトのポイントクラウドとその履歴トラジェクトリを入力として使用します。
大規模データセットに対する広範な実験を行い、我々のアプローチが最先端の手法に対してうまく機能することを実証した。
論文 参考訳(メタデータ) (2023-12-13T18:59:13Z) - OcTr: Octree-based Transformer for 3D Object Detection [30.335788698814444]
LiDARベースの3Dオブジェクト検出の重要な課題は、大規模な3Dシーンから十分な特徴をキャプチャすることだ。
我々はこの問題に対処するためにOcTrというOcreeベースのトランスフォーマーを提案する。
本研究では,前景の知覚性を高めるために,セマンティック・アウェアな位置埋め込みとアテンションマスクを組み合わせたハイブリッドな位置埋め込みを提案する。
論文 参考訳(メタデータ) (2023-03-22T15:01:20Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - Joint Spatial-Temporal Optimization for Stereo 3D Object Tracking [34.40019455462043]
本研究では,空間時間最適化に基づくステレオ3次元物体追跡手法を提案する。
ネットワークから隣接画像上の対応する2Dバウンディングボックスを検出し,初期3Dバウンディングボックスを回帰する。
オブジェクトセントロイドに関連づけられた複雑なオブジェクトキューは、リージョンベースのネットワークを使用して予測される。
論文 参考訳(メタデータ) (2020-04-20T13:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。