論文の概要: Model-Agnostic Hierarchical Attention for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2301.02650v1
- Date: Fri, 6 Jan 2023 18:52:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-09 23:50:51.662791
- Title: Model-Agnostic Hierarchical Attention for 3D Object Detection
- Title(参考訳): 3次元物体検出のためのモデル非依存階層的注意
- Authors: Manli Shu, Le Xue, Ning Yu, Roberto Mart\'in-Mart\'in, Juan Carlos
Niebles, Caiming Xiong, Ran Xu
- Abstract要約: 変圧器を用いた3次元検出器のためのモジュラー化階層設計として,2つの新しい注意機構を提案する。
異なるスケールで機能学習を可能にするために,単一スケールの入力機能から複数スケールのトークンを構築するシンプルなマルチスケールアテンションを提案する。
局所的特徴集約のために,各バウンディングボックスの提案に対して適応的なアテンション範囲を持つサイズ適応型局所アテンションを提案する。
- 参考スコア(独自算出の注目度): 81.33112745926113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers as versatile network architectures have recently seen great
success in 3D point cloud object detection. However, the lack of hierarchy in a
plain transformer makes it difficult to learn features at different scales and
restrains its ability to extract localized features. Such limitation makes them
have imbalanced performance on objects of different sizes, with inferior
performance on smaller ones. In this work, we propose two novel attention
mechanisms as modularized hierarchical designs for transformer-based 3D
detectors. To enable feature learning at different scales, we propose Simple
Multi-Scale Attention that builds multi-scale tokens from a single-scale input
feature. For localized feature aggregation, we propose Size-Adaptive Local
Attention with adaptive attention ranges for every bounding box proposal. Both
of our attention modules are model-agnostic network layers that can be plugged
into existing point cloud transformers for end-to-end training. We evaluate our
method on two widely used indoor 3D point cloud object detection benchmarks. By
plugging our proposed modules into the state-of-the-art transformer-based 3D
detector, we improve the previous best results on both benchmarks, with the
largest improvement margin on small objects.
- Abstract(参考訳): 汎用ネットワークアーキテクチャとしてのトランスフォーマーは最近、3dポイントクラウドオブジェクト検出で大きな成功を収めている。
しかし, 通常の変圧器では階層構造が欠如しているため, 異なるスケールで特徴を学習することは困難であり, 局所的特徴を抽出する能力を抑制する。
このような制限により、異なるサイズのオブジェクトでは性能が不均衡になり、小さいオブジェクトでは性能が劣る。
本研究では,トランスを用いた3D検出器のモジュール化階層設計として,新しい2つの注意機構を提案する。
異なるスケールで機能学習を可能にするために,単一スケールの入力機能から複数スケールのトークンを構築するシンプルなマルチスケールアテンションを提案する。
局所化特徴集約のために,各境界ボックスの提案に対して適応的注意範囲を持つサイズ適応局所注意を提案する。
この2つのアテンションモジュールはモデルに依存しないネットワーク層で、エンドツーエンドトレーニングのために既存のポイントクラウドトランスフォーマーにプラグインすることができます。
提案手法を室内3次元点状物体検出ベンチマークで評価した。
提案するモジュールを最先端のトランスフォーマーベースの3d検出器に差し込むことで,従来の2つのベンチマークの最良の結果を改善し,小型オブジェクトに対する改善マージンを最大にする。
関連論文リスト
- SimPLR: A Simple and Plain Transformer for Scaling-Efficient Object Detection and Segmentation [49.65221743520028]
本研究は, 背骨と頭部が非階層的であり, 単一スケールの機能で動作するSimPLRを, スケール認識型トランスフォーマーベース検出器により検出できることを示す。
マルチスケールおよびシングルスケールの最先端と比較して、我々のモデルはより大きなキャパシティ(自己監督型)モデルとより事前学習データにより、はるかに良くスケールする。
論文 参考訳(メタデータ) (2023-10-09T17:59:26Z) - Joint object detection and re-identification for 3D obstacle
multi-camera systems [47.87501281561605]
本研究は,カメラとライダー情報を用いた物体検出ネットワークに新たな改良を加えたものである。
同じ車両内の隣のカメラにまたがって物体を再識別する作業のために、追加のブランチが組み込まれている。
その結果,従来の非最大抑圧(NMS)技術よりも,この手法が優れていることが示された。
論文 参考訳(メタデータ) (2023-10-09T15:16:35Z) - S$^3$-MonoDETR: Supervised Shape&Scale-perceptive Deformable Transformer for Monocular 3D Object Detection [21.96072831561483]
本稿では,モノクロ3次元物体検出のためのSupervised Shape&Scale-perceptive Deformable Attention' (S$3$-DA) モジュールを提案する。
これにより、S$3$-DAは、任意のカテゴリに属するクエリポイントに対する受容的フィールドを効果的に推定し、堅牢なクエリ機能を生成することができる。
KITTIとOpenデータセットの実験では、S$3$-DAが検出精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-09-02T12:36:38Z) - Feature Shrinkage Pyramid for Camouflaged Object Detection with
Transformers [34.42710399235461]
視覚変換器は、最近、擬似的オブジェクト検出において、強いグローバルなコンテキストモデリング能力を示した。
ローカリティモデリングの効率の低下とデコーダの機能集約の不足という2つの大きな制限に悩まされている。
本研究では, 局所性向上した隣接する変圧器の特徴を階層的に復号化することを目的とした, 変圧器をベースとしたFSPNet(Feature Shrinkage Pyramid Network)を提案する。
論文 参考訳(メタデータ) (2023-03-26T20:50:58Z) - Towards Efficient Use of Multi-Scale Features in Transformer-Based
Object Detectors [49.83396285177385]
マルチスケール機能は、オブジェクト検出に非常に効果的であることが証明されているが、多くの場合、巨大な計算コストが伴う。
本稿では,Transformerベースのオブジェクト検出器において,マルチスケール機能を効率的に利用するための汎用パラダイムとして,Iterative Multi-scale Feature Aggregation (IMFA)を提案する。
論文 参考訳(メタデータ) (2022-08-24T08:09:25Z) - An Extendable, Efficient and Effective Transformer-based Object Detector [95.06044204961009]
我々は、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
ViDTは、最近のSwin Transformerをスタンドアロンのオブジェクト検出器に拡張するために、再構成されたアテンションモジュールを導入した。
オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。
論文 参考訳(メタデータ) (2022-04-17T09:27:45Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - DA-DETR: Domain Adaptive Detection Transformer with Information Fusion [53.25930448542148]
DA-DETRは、ラベル付きソースドメインからラベルなしターゲットドメインへの効果的な転送のための情報融合を導入するドメイン適応型オブジェクト検出変換器である。
本稿では,CNN機能とトランスフォーマー機能を融合した新しいCNN-Transformer Blender(CTBlender)を提案する。
CTBlenderはTransformer機能を使用して、高レベルの意味情報と低レベルの空間情報が融合した複数のスケールでCNN機能を変調し、正確な物体識別と位置決めを行う。
論文 参考訳(メタデータ) (2021-03-31T13:55:56Z) - 3D Object Detection with Pointformer [29.935891419574602]
本稿では,3dポイントクラウドのためのトランスフォーマーバックボーンであるpointformerを提案する。
ローカルトランスフォーマーモジュールは、オブジェクトレベルでコンテキスト依存の領域特徴を学習するローカル領域のポイント間の相互作用をモデル化するために使用される。
Global Transformerは、シーンレベルでコンテキスト対応の表現を学ぶように設計されている。
論文 参考訳(メタデータ) (2020-12-21T15:12:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。