論文の概要: Guiding Query Position and Performing Similar Attention for
Transformer-Based Detection Heads
- arxiv url: http://arxiv.org/abs/2108.09691v1
- Date: Sun, 22 Aug 2021 11:32:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-24 15:44:38.581302
- Title: Guiding Query Position and Performing Similar Attention for
Transformer-Based Detection Heads
- Title(参考訳): 変圧器型検出ヘッドにおけるクエリ位置の誘導と類似の注意
- Authors: Xiaohu Jiang and Ze Chen and Zhicheng Wang and Erjin Zhou and ChunYuan
- Abstract要約: 本稿では、オブジェクトクエリの最新の位置情報を反復的にクエリ位置に埋め込むためのガイドクエリ位置(GQPos)法を提案する。
特徴マップの融合に加えて、SiAは注意重みマップを融合させ、高解像度の注意重みマップの学習を加速させる。
実験の結果,提案したGQPosは,DETR,SMCA,YoloS,HoiTransformerなど,一連のモデルの性能を向上させることがわかった。
- 参考スコア(独自算出の注目度): 20.759022922347697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: After DETR was proposed, this novel transformer-based detection paradigm
which performs several cross-attentions between object queries and feature maps
for predictions has subsequently derived a series of transformer-based
detection heads. These models iterate object queries after each
cross-attention. However, they don't renew the query position which indicates
object queries' position information. Thus model needs extra learning to figure
out the newest regions that query position should express and need more
attention. To fix this issue, we propose the Guided Query Position (GQPos)
method to embed the latest location information of object queries to query
position iteratively.
Another problem of such transformer-based detection heads is the high
complexity to perform attention on multi-scale feature maps, which hinders them
from improving detection performance at all scales. Therefore we propose a
novel fusion scheme named Similar Attention (SiA): besides the feature maps is
fused, SiA also fuse the attention weights maps to accelerate the learning of
high-resolution attention weight map by well-learned low-resolution attention
weight map.
Our experiments show that the proposed GQPos improves the performance of a
series of models, including DETR, SMCA, YoloS, and HoiTransformer and SiA
consistently improve the performance of multi-scale transformer-based detection
heads like DETR and HoiTransformer.
- Abstract(参考訳): DETRが提案された後、オブジェクトクエリと予測のための特徴マップ間のいくつかの交差アテンションを実行するトランスフォーマーベースの検出パラダイムが、その後、一連のトランスフォーマーベースの検出ヘッドを導出した。
これらのモデルは、各クロスアテンション後にオブジェクトクエリを繰り返す。
しかし、オブジェクトクエリの位置情報を示すクエリ位置を更新しません。
したがってモデルには、クエリ位置が表現すべき最新の領域を見つけ出し、さらに注意する必要がある。
この問題を解決するために,オブジェクトクエリの最新の位置情報を反復的にクエリ位置に埋め込むgqpos(guided query position)手法を提案する。
このようなトランスを用いた検出ヘッドのもう一つの問題は、マルチスケールの特徴マップに注意を向ける複雑さが高く、あらゆるスケールでの検知性能の向上を妨げる。
そこで本研究では,特徴写像の融合に加えて,注目重みマップを融合させて高分解能注目重みマップの学習を促進させる,SiAという新たな融合方式を提案する。
実験の結果,提案したGQPosは,DETR,SMCA,YoloS,HoiTransformerなどの一連のモデルの性能を向上し,SiAはDETRやHoiTransformerなどのマルチスケールトランスフォーマーベース検出ヘッドの性能を一貫して向上することがわかった。
関連論文リスト
- Show Me What and Where has Changed? Question Answering and Grounding for Remote Sensing Change Detection [82.65760006883248]
我々は,CDQAG (Change Detection Question Answering and Grounding) という新しいタスクを導入する。
CDQAGは、解釈可能なテキスト回答と直感的な視覚的証拠を提供することで、従来の変更検出タスクを拡張している。
QAG-360Kと呼ばれる最初のCDQAGベンチマークデータセットを構築し、360K以上の質問、テキスト回答、およびそれに対応する高品質な視覚マスクを含む。
論文 参考訳(メタデータ) (2024-10-31T11:20:13Z) - OrientedFormer: An End-to-End Transformer-Based Oriented Object Detector in Remote Sensing Images [26.37802649901314]
リモートセンシング画像におけるオブジェクト指向物体検出は、複数方向のオブジェクトが分散しているため、難しい課題である。
これらの問題に対処する3つの専用モジュールからなるエンドツーエンドのトランスフォーマベース指向オブジェクト検出器を提案する。
従来のエンドツーエンド検出器と比較して、OrientedFormerはDIOR-RとDOTA-v1.0でそれぞれ1.16および1.21 AP$_50$を獲得し、トレーニングエポックを3$times$から1$times$に下げる。
論文 参考訳(メタデータ) (2024-09-29T10:36:33Z) - SEED: A Simple and Effective 3D DETR in Point Clouds [72.74016394325675]
ポイントクラウドの分散度が高く,不均一な分布のため,主な課題は困難である,と我々は主張する。
点雲から3次元物体を検出するための簡便で効果的な3次元DETR法(SEED)を提案する。
論文 参考訳(メタデータ) (2024-07-15T14:21:07Z) - Decoupled DETR: Spatially Disentangling Localization and Classification
for Improved End-to-End Object Detection [48.429555904690595]
本稿では,タスク認識型問合せ生成モジュールと切り離された特徴学習プロセスを含む空間的に分離されたDETRを紹介する。
提案手法は,従来の研究に比べてMSCOCOデータセットの大幅な改善を実現していることを示す。
論文 参考訳(メタデータ) (2023-10-24T15:54:11Z) - InsMapper: Exploring Inner-instance Information for Vectorized HD
Mapping [41.59891369655983]
InsMapperは、トランスフォーマーによるベクトル化された高精細マッピングのインナーインスタンス情報を利用する。
InsMapperは従来の最先端の手法を超越し、その有効性と汎用性を示している。
論文 参考訳(メタデータ) (2023-08-16T17:58:28Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Object Detection with Transformers: A Review [11.255962936937744]
本報告では, 従来のDETRモデルにおいて提案された21の進歩について概説する。
我々は、様々な検出変換器の比較分析を行い、その性能とネットワークアーキテクチャを評価した。
この研究は、既存の課題に対処し、オブジェクト検出領域におけるトランスフォーマーの適用を探求する研究者の間で、さらなる関心を喚起することを期待している。
論文 参考訳(メタデータ) (2023-06-07T16:13:38Z) - Time-rEversed diffusioN tEnsor Transformer: A new TENET of Few-Shot
Object Detection [35.54153749138406]
本稿では,時間rEversed diffusioN tEnsor Transformer (TENET)を提案する。
また,高階表現を備えたTransformer Relation Head (TRH) を提案し,クエリ領域とサポートセット全体の相関を符号化する。
当モデルでは,PASCAL VOC,FSOD,COCOの最先端結果が得られた。
論文 参考訳(メタデータ) (2022-10-30T17:40:12Z) - Transformers for Object Detection in Large Point Clouds [9.287964414592826]
トランスLPC(TransLPC)は,変圧器アーキテクチャに基づく大点雲の新しい検出モデルである。
本稿では,メモリフレンドリーな変圧器デコーダクエリ数を維持しながら,検出精度を向上させる新しいクエリ改善手法を提案する。
この単純な手法は検出精度に大きな影響を与え、実際のライダーデータ上での挑戦的なnuScenesデータセットで評価される。
論文 参考訳(メタデータ) (2022-09-30T06:35:43Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z) - Augmented Parallel-Pyramid Net for Attention Guided Pose-Estimation [90.28365183660438]
本稿では、注意部分モジュールと微分可能な自動データ拡張を備えた拡張並列ピラミドネットを提案する。
我々は、データ拡張のシーケンスをトレーニング可能なCNNコンポーネントとして定式化する新しいポーズ検索空間を定義する。
特に,本手法は,挑戦的なCOCOキーポイントベンチマークとMPIIデータセットの最先端結果において,トップ1の精度を実現する。
論文 参考訳(メタデータ) (2020-03-17T03:52:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。