論文の概要: Transformers for Object Detection in Large Point Clouds
- arxiv url: http://arxiv.org/abs/2209.15258v1
- Date: Fri, 30 Sep 2022 06:35:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 14:47:20.091183
- Title: Transformers for Object Detection in Large Point Clouds
- Title(参考訳): 大点雲における物体検出用変圧器
- Authors: Felicia Ruppel, Florian Faion, Claudius Gl\"aser, Klaus Dietmayer
- Abstract要約: トランスLPC(TransLPC)は,変圧器アーキテクチャに基づく大点雲の新しい検出モデルである。
本稿では,メモリフレンドリーな変圧器デコーダクエリ数を維持しながら,検出精度を向上させる新しいクエリ改善手法を提案する。
この単純な手法は検出精度に大きな影響を与え、実際のライダーデータ上での挑戦的なnuScenesデータセットで評価される。
- 参考スコア(独自算出の注目度): 9.287964414592826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present TransLPC, a novel detection model for large point clouds that is
based on a transformer architecture. While object detection with transformers
has been an active field of research, it has proved difficult to apply such
models to point clouds that span a large area, e.g. those that are common in
autonomous driving, with lidar or radar data. TransLPC is able to remedy these
issues: The structure of the transformer model is modified to allow for larger
input sequence lengths, which are sufficient for large point clouds. Besides
this, we propose a novel query refinement technique to improve detection
accuracy, while retaining a memory-friendly number of transformer decoder
queries. The queries are repositioned between layers, moving them closer to the
bounding box they are estimating, in an efficient manner. This simple technique
has a significant effect on detection accuracy, which is evaluated on the
challenging nuScenes dataset on real-world lidar data. Besides this, the
proposed method is compatible with existing transformer-based solutions that
require object detection, e.g. for joint multi-object tracking and detection,
and enables them to be used in conjunction with large point clouds.
- Abstract(参考訳): 本稿では,変圧器アーキテクチャに基づく大点雲の新しい検出モデルであるTransLPCを提案する。
変圧器による物体検出は研究の活発な分野であるが、ライダーやレーダーデータなどの自律走行で一般的なものなど、広い領域にまたがる点雲にそのようなモデルを適用することは困難であることが証明されている。
TransLPCはこれらの問題を解決することができる: トランスフォーマーモデルの構造は、大きな点の雲に十分な入力シーケンス長を許容するように変更されている。
さらに,メモリフレンドリーな変圧器デコーダクエリ数を維持しながら,検出精度を向上させる新しいクエリ改善手法を提案する。
クエリはレイヤ間で再配置され、推定しているバウンディングボックスに効率的に移動されます。
この単純な手法は検出精度に大きな影響を与え、実際のライダーデータ上での挑戦的なnuScenesデータセットで評価される。
さらに,提案手法は,マルチオブジェクト追跡と検出を併用するなど,オブジェクト検出を必要とする既存のトランスフォーマティブソリューションと互換性があり,大点雲と連携して使用することが可能である。
関連論文リスト
- Feature Shrinkage Pyramid for Camouflaged Object Detection with
Transformers [34.42710399235461]
視覚変換器は、最近、擬似的オブジェクト検出において、強いグローバルなコンテキストモデリング能力を示した。
ローカリティモデリングの効率の低下とデコーダの機能集約の不足という2つの大きな制限に悩まされている。
本研究では, 局所性向上した隣接する変圧器の特徴を階層的に復号化することを目的とした, 変圧器をベースとしたFSPNet(Feature Shrinkage Pyramid Network)を提案する。
論文 参考訳(メタデータ) (2023-03-26T20:50:58Z) - RegFormer: An Efficient Projection-Aware Transformer Network for
Large-Scale Point Cloud Registration [73.69415797389195]
本稿では,大規模クラウドアライメントのためのエンドツーエンドトランス (RegFormer) ネットワークを提案する。
具体的には、プロジェクション対応階層変換器を提案し、長距離依存を捕捉し、外乱をフィルタする。
我々の変圧器は線形複雑であり、大規模シーンでも高い効率が保証される。
論文 参考訳(メタデータ) (2023-03-22T08:47:37Z) - Applying Plain Transformers to Real-World Point Clouds [0.0]
この研究は、現実世界のポイントクラウド理解におけるプレーントランスフォーマーを再考する。
誘導バイアスの欠如による性能ギャップを解消するため,マスク付きオートエンコーダ(MAE)を用いた自己教師型事前訓練について検討した。
我々のモデルは,S3DISデータセットのセマンティックセグメンテーションとScanNetデータセットのオブジェクト検出において,計算コストの低いSOTA結果を実現する。
論文 参考訳(メタデータ) (2023-02-28T21:06:36Z) - Hierarchical Point Attention for Indoor 3D Object Detection [111.04397308495618]
本研究は、点ベース変圧器検出器の汎用階層設計として、2つの新しい注意操作を提案する。
まず、よりきめ細かい特徴学習を可能にするために、シングルスケールの入力機能からマルチスケールトークンを構築するマルチスケール注意(MS-A)を提案する。
第2に,適応型アテンション領域を持つサイズ適応型ローカルアテンション(Local-A)を提案する。
論文 参考訳(メタデータ) (2023-01-06T18:52:12Z) - Towards Light Weight Object Detection System [6.535035773534901]
本稿ではトランスアーキテクチャで使用される自己注意層の近似について述べる。
また,マルチレゾリューション機能融合にトランスフォーマーエンコーダ層を用いる手法を提案する。
論文 参考訳(メタデータ) (2022-10-08T00:55:15Z) - An Extendable, Efficient and Effective Transformer-based Object Detector [95.06044204961009]
我々は、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
ViDTは、最近のSwin Transformerをスタンドアロンのオブジェクト検出器に拡張するために、再構成されたアテンションモジュールを導入した。
オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。
論文 参考訳(メタデータ) (2022-04-17T09:27:45Z) - TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with
Transformers [49.689566246504356]
そこで本研究では,LiDAR-カメラ融合に対するソフトアソシエーション機構による堅牢な解であるTransFusionを提案する。
TransFusionは大規模データセット上で最先端のパフォーマンスを実現する。
提案手法を3次元トラッキングタスクに拡張し,nuScenesトラッキングのリーダーボードにおける第1位を達成する。
論文 参考訳(メタデータ) (2022-03-22T07:15:13Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - TransLoc3D : Point Cloud based Large-scale Place Recognition using
Adaptive Receptive Fields [40.55971834919629]
固定受容場は位置認識には適していないと我々は主張する。
本稿では,入力点クラウドに基づいて受容場のサイズを適応的に調整できる新しい適応受容場モジュール(ARFM)を提案する。
また,新たなネットワークアーキテクチャであるTransLoc3Dを提案する。
論文 参考訳(メタデータ) (2021-05-25T01:54:31Z) - DA-DETR: Domain Adaptive Detection Transformer with Information Fusion [53.25930448542148]
DA-DETRは、ラベル付きソースドメインからラベルなしターゲットドメインへの効果的な転送のための情報融合を導入するドメイン適応型オブジェクト検出変換器である。
本稿では,CNN機能とトランスフォーマー機能を融合した新しいCNN-Transformer Blender(CTBlender)を提案する。
CTBlenderはTransformer機能を使用して、高レベルの意味情報と低レベルの空間情報が融合した複数のスケールでCNN機能を変調し、正確な物体識別と位置決めを行う。
論文 参考訳(メタデータ) (2021-03-31T13:55:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。