論文の概要: SEGT: A General Spatial Expansion Group Transformer for nuScenes Lidar-based Object Detection Task
- arxiv url: http://arxiv.org/abs/2412.09658v1
- Date: Thu, 12 Dec 2024 08:23:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:03:07.246052
- Title: SEGT: A General Spatial Expansion Group Transformer for nuScenes Lidar-based Object Detection Task
- Title(参考訳): SEGT: nuScenes Lidar-based Object Detection Taskのための一般空間拡張グループ変換器
- Authors: Cheng Mei, Hao He, Yahui Liu, Zhenhua Guo,
- Abstract要約: 空間拡張群変換器 (SEGT) と呼ばれる, nuScenes lidar を用いたオブジェクト検出タスクのためのトランスフォーマーベースのフレームワークを提案する。
点雲の不規則でスパースな性質を効果的に扱えるように,一般空間展開戦略を用いて,ボクセルを異なる特殊順序場へ移行することを提案する。
本研究では,多様な拡張戦略を交互に適用することにより,異なる順序の分野にまたがる特徴表現を統合することにより,包括的空間情報を捕捉するモデルの能力を高める。
- 参考スコア(独自算出の注目度): 13.987152592540554
- License:
- Abstract: In the technical report, we present a novel transformer-based framework for nuScenes lidar-based object detection task, termed Spatial Expansion Group Transformer (SEGT). To efficiently handle the irregular and sparse nature of point cloud, we propose migrating the voxels into distinct specialized ordered fields with the general spatial expansion strategies, and employ group attention mechanisms to extract the exclusive feature maps within each field. Subsequently, we integrate the feature representations across different ordered fields by alternately applying diverse expansion strategies, thereby enhancing the model's ability to capture comprehensive spatial information. The method was evaluated on the nuScenes lidar-based object detection test dataset, achieving an NDS score of 73.5 without Test-Time Augmentation (TTA) and 74.2 with TTA, demonstrating the effectiveness of the proposed method.
- Abstract(参考訳): 技術的報告では, nuScenes lidar-based object detection task (SEGT) と呼ばれる新しいトランスフォーマーベースのフレームワークを提案する。
点雲の不規則でスパースな性質を効果的に扱うため,一般空間展開戦略を用いて,ボクセルを個別に順序付けられたフィールドに移行し,グループアテンション機構を用いて各フィールド内の排他的特徴写像を抽出する手法を提案する。
次に,多様な拡張戦略を交互に適用することにより,異なる順序のフィールドにまたがる特徴表現を統合することにより,包括的空間情報を捕捉するモデルの能力を向上する。
提案手法の有効性を実証し,試験時間拡張(TTA)を伴わないNDSスコアが73.5,TTAが74.2,nuScenes lidars を用いたオブジェクト検出試験データセットを用いて評価した。
関連論文リスト
- Knowing Your Target: Target-Aware Transformer Makes Better Spatio-Temporal Video Grounding [20.906378094998303]
既存のTransformerベースのSTVGアプローチは、単に0を使用するオブジェクトクエリのセットを利用することが多い。
単純さにもかかわらず、これらのゼロオブジェクトクエリは、ターゲット固有の手がかりが欠如しているため、識別対象情報の学習が困難である。
STVG (Target-Aware Transformer for STVG) を新たに導入し,ビデオテキストペアからターゲット固有のキューを探索することで,オブジェクトクエリを適応的に生成する手法を提案する。
論文 参考訳(メタデータ) (2025-02-16T15:38:33Z) - Object Style Diffusion for Generalized Object Detection in Urban Scene [69.04189353993907]
本稿では,GoDiffという新しい単一ドメインオブジェクト検出一般化手法を提案する。
擬似ターゲットドメインデータとソースドメインデータを統合することで、トレーニングデータセットを多様化する。
実験により,本手法は既存の検出器の一般化能力を高めるだけでなく,他の単一領域一般化手法のプラグ・アンド・プレイ拡張として機能することが示された。
論文 参考訳(メタデータ) (2024-12-18T13:03:00Z) - Learning Spatial-Semantic Features for Robust Video Object Segmentation [108.045326229865]
空間意味的特徴と識別的オブジェクトクエリを備えたロバストなビデオオブジェクトセグメンテーションフレームワークを提案する。
提案手法は,複数のデータセットに対して新しい最先端性能を設定できることを示す。
論文 参考訳(メタデータ) (2024-07-10T15:36:00Z) - Weakly Supervised Open-Vocabulary Object Detection [31.605276665964787]
本稿では、従来のWSODを拡張するために、弱教師付きオープン語彙オブジェクト検出フレームワーク、すなわちWSOVODを提案する。
これを実現するために、データセットレベルの特徴適応、画像レベルの有意なオブジェクトローカライゼーション、地域レベルの視覚言語アライメントを含む3つの重要な戦略を検討する。
論文 参考訳(メタデータ) (2023-12-19T18:59:53Z) - Background Activation Suppression for Weakly Supervised Object
Localization and Semantic Segmentation [84.62067728093358]
弱教師付きオブジェクトローカライゼーションとセマンティックセグメンテーションは、画像レベルのラベルのみを使用してオブジェクトをローカライズすることを目的としている。
画素レベルのローカライゼーションを実現するために,フォアグラウンド予測マップを生成することで,新たなパラダイムが誕生した。
本稿では,物体の局在化学習過程に関する2つの驚くべき実験結果を示す。
論文 参考訳(メタデータ) (2023-09-22T15:44:10Z) - Spatial Transform Decoupling for Oriented Object Detection [43.44237345360947]
ビジョントランスフォーマー (ViT) はコンピュータビジョンタスクにおいて顕著な成功を収めた。
本稿では,空間変換デカップリング(Spatial Transform Decoupling,STD)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-21T08:36:23Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - MOST: Multiple Object localization with Self-supervised Transformers for
object discovery [97.47075050779085]
自己教師型トランスフォーマー(MOST)を用いた複数オブジェクトのローカライゼーションを提案する。
MOSTは、自己教師付き学習を用いて訓練されたトランスフォーマーの機能を使用して、実世界の画像に複数のオブジェクトをローカライズする。
対象検出器の自己教師付き事前学習にはMOSTが有効であり, 半教師付きオブジェクト検出と非教師付き領域提案生成において一貫した改善が得られた。
論文 参考訳(メタデータ) (2023-04-11T17:57:27Z) - CLIP the Gap: A Single Domain Generalization Approach for Object
Detection [60.20931827772482]
単一ドメインの一般化(Single Domain Generalization)は、単一のソースドメイン上でモデルをトレーニングすることで、目に見えないターゲットドメインに一般化する問題に取り組む。
本稿では、事前学習された視覚言語モデルを用いて、テキストプロンプトを介して意味領域の概念を導入することを提案する。
本手法は,検出器のバックボーンから抽出した特徴に作用する意味的拡張戦略と,テキストに基づく分類損失によって実現される。
論文 参考訳(メタデータ) (2023-01-13T12:01:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。