論文の概要: SEGT: A General Spatial Expansion Group Transformer for nuScenes Lidar-based Object Detection Task
- arxiv url: http://arxiv.org/abs/2412.09658v2
- Date: Tue, 21 Jan 2025 03:43:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:16:30.822823
- Title: SEGT: A General Spatial Expansion Group Transformer for nuScenes Lidar-based Object Detection Task
- Title(参考訳): SEGT: nuScenes Lidar-based Object Detection Taskのための一般空間拡張グループ変換器
- Authors: Cheng Mei, Hao He, Yahui Liu, Zhenhua Guo,
- Abstract要約: 空間拡張群変換器 (SEGT) と呼ばれる, nuScenes lidar を用いたオブジェクト検出タスクのためのトランスフォーマーベースのフレームワークを提案する。
点雲の不規則でスパースな性質を効果的に扱えるように,一般空間展開戦略を用いて,ボクセルを異なる特殊順序場へ移行することを提案する。
本研究では,多様な拡張戦略を交互に適用することにより,異なる順序の分野にまたがる特徴表現を統合することにより,包括的空間情報を捕捉するモデルの能力を高める。
- 参考スコア(独自算出の注目度): 13.987152592540554
- License:
- Abstract: In the technical report, we present a novel transformer-based framework for nuScenes lidar-based object detection task, termed Spatial Expansion Group Transformer (SEGT). To efficiently handle the irregular and sparse nature of point cloud, we propose migrating the voxels into distinct specialized ordered fields with the general spatial expansion strategies, and employ group attention mechanisms to extract the exclusive feature maps within each field. Subsequently, we integrate the feature representations across different ordered fields by alternately applying diverse expansion strategies, thereby enhancing the model's ability to capture comprehensive spatial information. The method was evaluated on the nuScenes lidar-based object detection test dataset, achieving an NDS score of 73.9 without Test-Time Augmentation (TTA) and 74.5 with TTA, demonstrating the effectiveness of the proposed method. Notably, our method ranks the 1st place in the nuScenes lidar-based object detection task.
- Abstract(参考訳): 技術的報告では, nuScenes lidar-based object detection task (SEGT) と呼ばれる新しいトランスフォーマーベースのフレームワークを提案する。
点雲の不規則でスパースな性質を効果的に扱えるように,一般空間展開戦略による特定順序フィールドへのボクセルの移動を提案し,各フィールド内の排他的特徴マップを抽出するためにグループアテンション機構を用いる。
次に,多様な拡張戦略を交互に適用することにより,異なる順序のフィールドにまたがる特徴表現を統合することにより,包括的空間情報を捕捉するモデルの能力を向上させる。
本手法は,試験時間拡張(TTA)を伴わないNDSスコア73.9,TTAで74.5,nuScenes lidars を用いたオブジェクト検出試験データセットを用いて評価し,提案手法の有効性を実証した。
特に,本手法は nuScenes lidar-based object detection task において第1位である。
関連論文リスト
- Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Learning Spatial-Semantic Features for Robust Video Object Segmentation [108.045326229865]
空間意味的特徴と識別的オブジェクトクエリを備えたロバストなビデオオブジェクトセグメンテーションフレームワークを提案する。
提案手法は,複数のデータセットに対して新しい最先端性能を設定できることを示す。
論文 参考訳(メタデータ) (2024-07-10T15:36:00Z) - DATR: Unsupervised Domain Adaptive Detection Transformer with Dataset-Level Adaptation and Prototypical Alignment [7.768332621617199]
我々は、オブジェクト検出の教師なし領域適応のために、ドメイン適応検出TRansformer(DATR)と呼ばれる強力なDETRベースの検出器を導入する。
提案するDATRは,教師モデルによって生成された擬似ラベルを用いて,平均教師に基づく自己学習フレームワークを組み込んで,ドメインバイアスをさらに緩和する。
複数のドメイン適応シナリオにおいて,提案したDATRの性能と一般化性を示す実験を行った。
論文 参考訳(メタデータ) (2024-05-20T03:48:45Z) - Weakly Supervised Open-Vocabulary Object Detection [31.605276665964787]
本稿では、従来のWSODを拡張するために、弱教師付きオープン語彙オブジェクト検出フレームワーク、すなわちWSOVODを提案する。
これを実現するために、データセットレベルの特徴適応、画像レベルの有意なオブジェクトローカライゼーション、地域レベルの視覚言語アライメントを含む3つの重要な戦略を検討する。
論文 参考訳(メタデータ) (2023-12-19T18:59:53Z) - Spatial Transform Decoupling for Oriented Object Detection [43.44237345360947]
ビジョントランスフォーマー (ViT) はコンピュータビジョンタスクにおいて顕著な成功を収めた。
本稿では,空間変換デカップリング(Spatial Transform Decoupling,STD)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-21T08:36:23Z) - MOST: Multiple Object localization with Self-supervised Transformers for
object discovery [97.47075050779085]
自己教師型トランスフォーマー(MOST)を用いた複数オブジェクトのローカライゼーションを提案する。
MOSTは、自己教師付き学習を用いて訓練されたトランスフォーマーの機能を使用して、実世界の画像に複数のオブジェクトをローカライズする。
対象検出器の自己教師付き事前学習にはMOSTが有効であり, 半教師付きオブジェクト検出と非教師付き領域提案生成において一貫した改善が得られた。
論文 参考訳(メタデータ) (2023-04-11T17:57:27Z) - Transformation-Invariant Network for Few-Shot Object Detection in Remote
Sensing Images [15.251042369061024]
FSOD(Few-shot Object Detection)は、トレーニングのために大量のラベル付きデータを頼りにしている。
リモートセンシング画像におけるオブジェクトのスケールと向きのバリエーションは、既存のFSOD法に重大な課題をもたらす。
特徴ピラミッドネットワークの統合と,クエリ機能向上のためのプロトタイプ機能の利用を提案する。
論文 参考訳(メタデータ) (2023-03-13T02:21:38Z) - CLIP the Gap: A Single Domain Generalization Approach for Object
Detection [60.20931827772482]
単一ドメインの一般化(Single Domain Generalization)は、単一のソースドメイン上でモデルをトレーニングすることで、目に見えないターゲットドメインに一般化する問題に取り組む。
本稿では、事前学習された視覚言語モデルを用いて、テキストプロンプトを介して意味領域の概念を導入することを提案する。
本手法は,検出器のバックボーンから抽出した特徴に作用する意味的拡張戦略と,テキストに基づく分類損失によって実現される。
論文 参考訳(メタデータ) (2023-01-13T12:01:18Z) - Fine-Grained Dynamic Head for Object Detection [68.70628757217939]
本稿では,各インスタンスの異なるスケールからfpn特徴の画素レベルの組み合わせを条件付きで選択する,きめ細かい動的ヘッドを提案する。
実験は,いくつかの最先端検出ベンチマークにおける提案手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2020-12-07T08:16:32Z) - Invariant Integration in Deep Convolutional Feature Space [77.99182201815763]
より深いニューラルネットワークアーキテクチャに事前知識を原則的に組み込む方法を示す。
本稿では,Rotated-MNISTデータセットの最先端性能について報告する。
論文 参考訳(メタデータ) (2020-04-20T09:45:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。