論文の概要: Guiding Query Position and Performing Similar Attention for
Transformer-Based Detection Heads
- arxiv url: http://arxiv.org/abs/2108.09691v1
- Date: Sun, 22 Aug 2021 11:32:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-24 15:44:38.581302
- Title: Guiding Query Position and Performing Similar Attention for
Transformer-Based Detection Heads
- Title(参考訳): 変圧器型検出ヘッドにおけるクエリ位置の誘導と類似の注意
- Authors: Xiaohu Jiang and Ze Chen and Zhicheng Wang and Erjin Zhou and ChunYuan
- Abstract要約: 本稿では、オブジェクトクエリの最新の位置情報を反復的にクエリ位置に埋め込むためのガイドクエリ位置(GQPos)法を提案する。
特徴マップの融合に加えて、SiAは注意重みマップを融合させ、高解像度の注意重みマップの学習を加速させる。
実験の結果,提案したGQPosは,DETR,SMCA,YoloS,HoiTransformerなど,一連のモデルの性能を向上させることがわかった。
- 参考スコア(独自算出の注目度): 20.759022922347697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: After DETR was proposed, this novel transformer-based detection paradigm
which performs several cross-attentions between object queries and feature maps
for predictions has subsequently derived a series of transformer-based
detection heads. These models iterate object queries after each
cross-attention. However, they don't renew the query position which indicates
object queries' position information. Thus model needs extra learning to figure
out the newest regions that query position should express and need more
attention. To fix this issue, we propose the Guided Query Position (GQPos)
method to embed the latest location information of object queries to query
position iteratively.
Another problem of such transformer-based detection heads is the high
complexity to perform attention on multi-scale feature maps, which hinders them
from improving detection performance at all scales. Therefore we propose a
novel fusion scheme named Similar Attention (SiA): besides the feature maps is
fused, SiA also fuse the attention weights maps to accelerate the learning of
high-resolution attention weight map by well-learned low-resolution attention
weight map.
Our experiments show that the proposed GQPos improves the performance of a
series of models, including DETR, SMCA, YoloS, and HoiTransformer and SiA
consistently improve the performance of multi-scale transformer-based detection
heads like DETR and HoiTransformer.
- Abstract(参考訳): DETRが提案された後、オブジェクトクエリと予測のための特徴マップ間のいくつかの交差アテンションを実行するトランスフォーマーベースの検出パラダイムが、その後、一連のトランスフォーマーベースの検出ヘッドを導出した。
これらのモデルは、各クロスアテンション後にオブジェクトクエリを繰り返す。
しかし、オブジェクトクエリの位置情報を示すクエリ位置を更新しません。
したがってモデルには、クエリ位置が表現すべき最新の領域を見つけ出し、さらに注意する必要がある。
この問題を解決するために,オブジェクトクエリの最新の位置情報を反復的にクエリ位置に埋め込むgqpos(guided query position)手法を提案する。
このようなトランスを用いた検出ヘッドのもう一つの問題は、マルチスケールの特徴マップに注意を向ける複雑さが高く、あらゆるスケールでの検知性能の向上を妨げる。
そこで本研究では,特徴写像の融合に加えて,注目重みマップを融合させて高分解能注目重みマップの学習を促進させる,SiAという新たな融合方式を提案する。
実験の結果,提案したGQPosは,DETR,SMCA,YoloS,HoiTransformerなどの一連のモデルの性能を向上し,SiAはDETRやHoiTransformerなどのマルチスケールトランスフォーマーベース検出ヘッドの性能を一貫して向上することがわかった。
関連論文リスト
- Small Object Detection by DETR via Information Augmentation and Adaptive
Feature Fusion [4.9860018132769985]
RT-DETRモデルは、リアルタイムオブジェクト検出では良好に動作するが、小さなオブジェクト検出精度では不十分である。
異なるレベルから各特徴マップに学習可能なパラメータを割り当てる適応的特徴融合アルゴリズムを提案する。
これにより、異なるスケールでオブジェクトの特徴をキャプチャするモデルの能力が向上し、小さなオブジェクトを検出する精度が向上する。
論文 参考訳(メタデータ) (2024-01-16T00:01:23Z) - Decoupled DETR: Spatially Disentangling Localization and Classification
for Improved End-to-End Object Detection [48.429555904690595]
本稿では,タスク認識型問合せ生成モジュールと切り離された特徴学習プロセスを含む空間的に分離されたDETRを紹介する。
提案手法は,従来の研究に比べてMSCOCOデータセットの大幅な改善を実現していることを示す。
論文 参考訳(メタデータ) (2023-10-24T15:54:11Z) - InsMapper: Exploring Inner-instance Information for Vectorized HD
Mapping [41.59891369655983]
InsMapperは、トランスフォーマーによるベクトル化された高精細マッピングのインナーインスタンス情報を利用する。
InsMapperは従来の最先端の手法を超越し、その有効性と汎用性を示している。
論文 参考訳(メタデータ) (2023-08-16T17:58:28Z) - Spatial-Temporal Enhanced Transformer Towards Multi-Frame 3D Object
Detection [59.03596380773798]
我々は、DETRのようなパラダイムに基づいた、多フレーム3Dオブジェクト検出のための新しいエンドツーエンドフレームワークであるSTEMDを提案する。
具体的には、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
我々は,計算オーバーヘッドをわずかに加えるだけで,難解なシナリオに対処する手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Object Detection with Transformers: A Review [11.255962936937744]
本報告では, 従来のDETRモデルにおいて提案された21の進歩について概説する。
我々は、様々な検出変換器の比較分析を行い、その性能とネットワークアーキテクチャを評価した。
この研究は、既存の課題に対処し、オブジェクト検出領域におけるトランスフォーマーの適用を探求する研究者の間で、さらなる関心を喚起することを期待している。
論文 参考訳(メタデータ) (2023-06-07T16:13:38Z) - Model-Agnostic Hierarchical Attention for 3D Object Detection [81.33112745926113]
変圧器を用いた3次元検出器のためのモジュラー化階層設計として,2つの新しい注意機構を提案する。
異なるスケールで機能学習を可能にするために,単一スケールの入力機能から複数スケールのトークンを構築するシンプルなマルチスケールアテンションを提案する。
局所的特徴集約のために,各バウンディングボックスの提案に対して適応的なアテンション範囲を持つサイズ適応型局所アテンションを提案する。
論文 参考訳(メタデータ) (2023-01-06T18:52:12Z) - Time-rEversed diffusioN tEnsor Transformer: A new TENET of Few-Shot
Object Detection [35.54153749138406]
本稿では,時間rEversed diffusioN tEnsor Transformer (TENET)を提案する。
また,高階表現を備えたTransformer Relation Head (TRH) を提案し,クエリ領域とサポートセット全体の相関を符号化する。
当モデルでは,PASCAL VOC,FSOD,COCOの最先端結果が得られた。
論文 参考訳(メタデータ) (2022-10-30T17:40:12Z) - Transformers for Object Detection in Large Point Clouds [9.287964414592826]
トランスLPC(TransLPC)は,変圧器アーキテクチャに基づく大点雲の新しい検出モデルである。
本稿では,メモリフレンドリーな変圧器デコーダクエリ数を維持しながら,検出精度を向上させる新しいクエリ改善手法を提案する。
この単純な手法は検出精度に大きな影響を与え、実際のライダーデータ上での挑戦的なnuScenesデータセットで評価される。
論文 参考訳(メタデータ) (2022-09-30T06:35:43Z) - MRDet: A Multi-Head Network for Accurate Oriented Object Detection in
Aerial Images [51.227489316673484]
水平アンカーから変換された指向性提案を生成するために、任意指向領域提案ネットワーク(AO-RPN)を提案する。
正確なバウンディングボックスを得るために,検出タスクを複数のサブタスクに分離し,マルチヘッドネットワークを提案する。
各ヘッドは、対応するタスクに最適な特徴を学習するために特別に設計されており、ネットワークがオブジェクトを正確に検出することができる。
論文 参考訳(メタデータ) (2020-12-24T06:36:48Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z) - Augmented Parallel-Pyramid Net for Attention Guided Pose-Estimation [90.28365183660438]
本稿では、注意部分モジュールと微分可能な自動データ拡張を備えた拡張並列ピラミドネットを提案する。
我々は、データ拡張のシーケンスをトレーニング可能なCNNコンポーネントとして定式化する新しいポーズ検索空間を定義する。
特に,本手法は,挑戦的なCOCOキーポイントベンチマークとMPIIデータセットの最先端結果において,トップ1の精度を実現する。
論文 参考訳(メタデータ) (2020-03-17T03:52:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。