論文の概要: Model-Agnostic Hierarchical Attention for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2301.02650v1
- Date: Fri, 6 Jan 2023 18:52:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-09 23:50:51.662791
- Title: Model-Agnostic Hierarchical Attention for 3D Object Detection
- Title(参考訳): 3次元物体検出のためのモデル非依存階層的注意
- Authors: Manli Shu, Le Xue, Ning Yu, Roberto Mart\'in-Mart\'in, Juan Carlos
Niebles, Caiming Xiong, Ran Xu
- Abstract要約: 変圧器を用いた3次元検出器のためのモジュラー化階層設計として,2つの新しい注意機構を提案する。
異なるスケールで機能学習を可能にするために,単一スケールの入力機能から複数スケールのトークンを構築するシンプルなマルチスケールアテンションを提案する。
局所的特徴集約のために,各バウンディングボックスの提案に対して適応的なアテンション範囲を持つサイズ適応型局所アテンションを提案する。
- 参考スコア(独自算出の注目度): 81.33112745926113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers as versatile network architectures have recently seen great
success in 3D point cloud object detection. However, the lack of hierarchy in a
plain transformer makes it difficult to learn features at different scales and
restrains its ability to extract localized features. Such limitation makes them
have imbalanced performance on objects of different sizes, with inferior
performance on smaller ones. In this work, we propose two novel attention
mechanisms as modularized hierarchical designs for transformer-based 3D
detectors. To enable feature learning at different scales, we propose Simple
Multi-Scale Attention that builds multi-scale tokens from a single-scale input
feature. For localized feature aggregation, we propose Size-Adaptive Local
Attention with adaptive attention ranges for every bounding box proposal. Both
of our attention modules are model-agnostic network layers that can be plugged
into existing point cloud transformers for end-to-end training. We evaluate our
method on two widely used indoor 3D point cloud object detection benchmarks. By
plugging our proposed modules into the state-of-the-art transformer-based 3D
detector, we improve the previous best results on both benchmarks, with the
largest improvement margin on small objects.
- Abstract(参考訳): 汎用ネットワークアーキテクチャとしてのトランスフォーマーは最近、3dポイントクラウドオブジェクト検出で大きな成功を収めている。
しかし, 通常の変圧器では階層構造が欠如しているため, 異なるスケールで特徴を学習することは困難であり, 局所的特徴を抽出する能力を抑制する。
このような制限により、異なるサイズのオブジェクトでは性能が不均衡になり、小さいオブジェクトでは性能が劣る。
本研究では,トランスを用いた3D検出器のモジュール化階層設計として,新しい2つの注意機構を提案する。
異なるスケールで機能学習を可能にするために,単一スケールの入力機能から複数スケールのトークンを構築するシンプルなマルチスケールアテンションを提案する。
局所化特徴集約のために,各境界ボックスの提案に対して適応的注意範囲を持つサイズ適応局所注意を提案する。
この2つのアテンションモジュールはモデルに依存しないネットワーク層で、エンドツーエンドトレーニングのために既存のポイントクラウドトランスフォーマーにプラグインすることができます。
提案手法を室内3次元点状物体検出ベンチマークで評価した。
提案するモジュールを最先端のトランスフォーマーベースの3d検出器に差し込むことで,従来の2つのベンチマークの最良の結果を改善し,小型オブジェクトに対する改善マージンを最大にする。
関連論文リスト
- S$^3$-MonoDETR: Supervised Shape&Scale-perceptive Deformable Transformer
for Monocular 3D Object Detection [22.424834025925076]
モノクロ3Dオブジェクト検出のためのSupervised Shape&Scale-perceptive Deformable Attention (S$3$-DA)モジュール。
本稿では,モノクロ3次元物体検出のための"Supervised Shape&Scale-perceptive Deformable Attention" (S$3$-DA) モジュールを提案する。
論文 参考訳(メタデータ) (2023-09-02T12:36:38Z) - PatchContrast: Self-Supervised Pre-training for 3D Object Detection [14.603858163158625]
PatchContrastは、3Dオブジェクト検出のための新しい自己教師付きポイントクラウド事前学習フレームワークである。
提案手法は,3つの一般的な3次元検出データセットにおいて,既存の最先端モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-14T07:45:54Z) - Feature Shrinkage Pyramid for Camouflaged Object Detection with
Transformers [34.42710399235461]
視覚変換器は、最近、擬似的オブジェクト検出において、強いグローバルなコンテキストモデリング能力を示した。
ローカリティモデリングの効率の低下とデコーダの機能集約の不足という2つの大きな制限に悩まされている。
本研究では, 局所性向上した隣接する変圧器の特徴を階層的に復号化することを目的とした, 変圧器をベースとしたFSPNet(Feature Shrinkage Pyramid Network)を提案する。
論文 参考訳(メタデータ) (2023-03-26T20:50:58Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - TransPillars: Coarse-to-Fine Aggregation for Multi-Frame 3D Object
Detection [47.941714033657675]
ポイントクラウドを用いた3Dオブジェクト検出は、自律走行とロボット工学に広く応用されているため、注目を集めている。
連続点雲フレームの時間的特徴を生かしたトランスピラース(TransPillars)を設計する。
提案するTransPillarsは,既存のマルチフレーム検出手法と比較して最先端性能を実現する。
論文 参考訳(メタデータ) (2022-08-04T15:41:43Z) - Learning Local Displacements for Point Cloud Completion [93.54286830844134]
本稿では,3次元点雲として表現された部分的スキャンからオブジェクトとセマンティックシーンを補完する手法を提案する。
アーキテクチャはエンコーダ-デコーダ構造内で連続的に使用される3つの新しいレイヤに依存している。
オブジェクトと屋内の両方のシーン完了タスクにおけるアーキテクチャの評価を行い、最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-30T18:31:37Z) - PatchFormer: A Versatile 3D Transformer Based on Patch Attention [0.358439716487063]
我々は、アテンションマップが計算されるより小さなベースセットを適応的に学習するためにパッチアテンションを導入する。
これらの基底に対する重み付けの和により、パッチアテンションはグローバルな形状のコンテキストをキャプチャするだけでなく、入力サイズに対する線形複雑度も達成する。
我々のネットワークは,従来の3Dトランスよりも7.3倍のスピードアップで,一般的な3D認識タスクにおいて高い精度を実現している。
論文 参考訳(メタデータ) (2021-10-30T08:39:55Z) - Improving 3D Object Detection with Channel-wise Transformer [58.668922561622466]
我々は手作りの最小限の設計で2段階の3Dオブジェクト検出フレームワーク(CT3D)を提案する。
CT3Dは、提案対応の埋め込みとチャンネルワイドコンテキストアグリゲーションを同時に行う。
これはKITTIテスト3D検出ベンチマークで中等車カテゴリーで81.77%のAPを達成した。
論文 参考訳(メタデータ) (2021-08-23T02:03:40Z) - Anchor-free 3D Single Stage Detector with Mask-Guided Attention for
Point Cloud [79.39041453836793]
我々は、点雲をアンカーフリーで検出する新しい1段3次元検出器を開発した。
ボクセルをベースとしたスパース3D特徴量からスパース2D特徴量マップに変換することでこれを克服する。
検出信頼度スコアとバウンディングボックス回帰の精度との相関性を改善するために,IoUに基づく検出信頼度再校正手法を提案する。
論文 参考訳(メタデータ) (2021-08-08T13:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。