Fugu-MT 論文翻訳(概要): Guiding Query Position and Performing Similar Attention for Transformer-Based Detection Heads

論文の概要: Guiding Query Position and Performing Similar Attention for Transformer-Based Detection Heads

arxiv url: http://arxiv.org/abs/2108.09691v1
Date: Sun, 22 Aug 2021 11:32:34 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-24 15:44:38.581302
Title: Guiding Query Position and Performing Similar Attention for Transformer-Based Detection Heads
Title（参考訳）: 変圧器型検出ヘッドにおけるクエリ位置の誘導と類似の注意
Authors: Xiaohu Jiang and Ze Chen and Zhicheng Wang and Erjin Zhou and ChunYuan
Abstract要約: 本稿では、オブジェクトクエリの最新の位置情報を反復的にクエリ位置に埋め込むためのガイドクエリ位置(GQPos)法を提案する。特徴マップの融合に加えて、SiAは注意重みマップを融合させ、高解像度の注意重みマップの学習を加速させる。実験の結果,提案したGQPosは,DETR,SMCA,YoloS,HoiTransformerなど,一連のモデルの性能を向上させることがわかった。
参考スコア（独自算出の注目度）: 20.759022922347697
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: After DETR was proposed, this novel transformer-based detection paradigm which performs several cross-attentions between object queries and feature maps for predictions has subsequently derived a series of transformer-based detection heads. These models iterate object queries after each cross-attention. However, they don't renew the query position which indicates object queries' position information. Thus model needs extra learning to figure out the newest regions that query position should express and need more attention. To fix this issue, we propose the Guided Query Position (GQPos) method to embed the latest location information of object queries to query position iteratively. Another problem of such transformer-based detection heads is the high complexity to perform attention on multi-scale feature maps, which hinders them from improving detection performance at all scales. Therefore we propose a novel fusion scheme named Similar Attention (SiA): besides the feature maps is fused, SiA also fuse the attention weights maps to accelerate the learning of high-resolution attention weight map by well-learned low-resolution attention weight map. Our experiments show that the proposed GQPos improves the performance of a series of models, including DETR, SMCA, YoloS, and HoiTransformer and SiA consistently improve the performance of multi-scale transformer-based detection heads like DETR and HoiTransformer.
Abstract（参考訳）: DETRが提案された後、オブジェクトクエリと予測のための特徴マップ間のいくつかの交差アテンションを実行するトランスフォーマーベースの検出パラダイムが、その後、一連のトランスフォーマーベースの検出ヘッドを導出した。これらのモデルは、各クロスアテンション後にオブジェクトクエリを繰り返す。しかし、オブジェクトクエリの位置情報を示すクエリ位置を更新しません。したがってモデルには、クエリ位置が表現すべき最新の領域を見つけ出し、さらに注意する必要がある。この問題を解決するために,オブジェクトクエリの最新の位置情報を反復的にクエリ位置に埋め込むgqpos(guided query position)手法を提案する。このようなトランスを用いた検出ヘッドのもう一つの問題は、マルチスケールの特徴マップに注意を向ける複雑さが高く、あらゆるスケールでの検知性能の向上を妨げる。そこで本研究では,特徴写像の融合に加えて,注目重みマップを融合させて高分解能注目重みマップの学習を促進させる,SiAという新たな融合方式を提案する。実験の結果,提案したGQPosは,DETR,SMCA,YoloS,HoiTransformerなどの一連のモデルの性能を向上し,SiAはDETRやHoiTransformerなどのマルチスケールトランスフォーマーベース検出ヘッドの性能を一貫して向上することがわかった。

関連論文リスト

RDD: Robust Feature Detector and Descriptor using Deformable Transformer [8.01082121187363]
本稿では,新規かつ堅牢なキーポイント検出器/ディスクリプタであるRobust Deformable Detector (RDD)を提案する。我々は、変形可能な注意が鍵となる位置に焦点を当て、探索空間の複雑さを効果的に減らすことを観察した。提案手法は,スパースマッチングタスクにおいて,最先端のキーポイント検出/記述手法よりも優れている。
論文参考訳（メタデータ） (2025-05-12T19:24:45Z)
Show Me What and Where has Changed? Question Answering and Grounding for Remote Sensing Change Detection [82.65760006883248]
我々は,CDQAG (Change Detection Question Answering and Grounding) という新しいタスクを導入する。 CDQAGは、解釈可能なテキスト回答と直感的な視覚的証拠を提供することで、従来の変更検出タスクを拡張している。 QAG-360Kと呼ばれる最初のCDQAGベンチマークデータセットを構築し、360K以上の質問、テキスト回答、およびそれに対応する高品質な視覚マスクを含む。
論文参考訳（メタデータ） (2024-10-31T11:20:13Z)
OrientedFormer: An End-to-End Transformer-Based Oriented Object Detector in Remote Sensing Images [26.37802649901314]
リモートセンシング画像におけるオブジェクト指向物体検出は、複数方向のオブジェクトが分散しているため、難しい課題である。これらの問題に対処する3つの専用モジュールからなるエンドツーエンドのトランスフォーマベース指向オブジェクト検出器を提案する。従来のエンドツーエンド検出器と比較して、OrientedFormerはDIOR-RとDOTA-v1.0でそれぞれ1.16および1.21 AP$_50$を獲得し、トレーニングエポックを3$times$から1$times$に下げる。
論文参考訳（メタデータ） (2024-09-29T10:36:33Z)
SEED: A Simple and Effective 3D DETR in Point Clouds [72.74016394325675]
ポイントクラウドの分散度が高く,不均一な分布のため,主な課題は困難である,と我々は主張する。点雲から3次元物体を検出するための簡便で効果的な3次元DETR法(SEED)を提案する。
論文参考訳（メタデータ） (2024-07-15T14:21:07Z)
Decoupled DETR: Spatially Disentangling Localization and Classification for Improved End-to-End Object Detection [48.429555904690595]
本稿では,タスク認識型問合せ生成モジュールと切り離された特徴学習プロセスを含む空間的に分離されたDETRを紹介する。提案手法は,従来の研究に比べてMSCOCOデータセットの大幅な改善を実現していることを示す。
論文参考訳（メタデータ） (2023-10-24T15:54:11Z)
InsMapper: Exploring Inner-instance Information for Vectorized HD Mapping [41.59891369655983]
InsMapperは、トランスフォーマーによるベクトル化された高精細マッピングのインナーインスタンス情報を利用する。 InsMapperは従来の最先端の手法を超越し、その有効性と汎用性を示している。
論文参考訳（メタデータ） (2023-08-16T17:58:28Z)
Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文参考訳（メタデータ） (2023-07-01T13:53:14Z)
Object Detection with Transformers: A Review [11.255962936937744]
本報告では, 従来のDETRモデルにおいて提案された21の進歩について概説する。我々は、様々な検出変換器の比較分析を行い、その性能とネットワークアーキテクチャを評価した。この研究は、既存の課題に対処し、オブジェクト検出領域におけるトランスフォーマーの適用を探求する研究者の間で、さらなる関心を喚起することを期待している。
論文参考訳（メタデータ） (2023-06-07T16:13:38Z)
Time-rEversed diffusioN tEnsor Transformer: A new TENET of Few-Shot Object Detection [35.54153749138406]
本稿では,時間rEversed diffusioN tEnsor Transformer (TENET)を提案する。また,高階表現を備えたTransformer Relation Head (TRH) を提案し,クエリ領域とサポートセット全体の相関を符号化する。当モデルでは,PASCAL VOC,FSOD,COCOの最先端結果が得られた。
論文参考訳（メタデータ） (2022-10-30T17:40:12Z)
Transformers for Object Detection in Large Point Clouds [9.287964414592826]
トランスLPC(TransLPC)は,変圧器アーキテクチャに基づく大点雲の新しい検出モデルである。本稿では,メモリフレンドリーな変圧器デコーダクエリ数を維持しながら,検出精度を向上させる新しいクエリ改善手法を提案する。この単純な手法は検出精度に大きな影響を与え、実際のライダーデータ上での挑戦的なnuScenesデータセットで評価される。
論文参考訳（メタデータ） (2022-09-30T06:35:43Z)
End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文参考訳（メタデータ） (2020-05-26T17:06:38Z)
Augmented Parallel-Pyramid Net for Attention Guided Pose-Estimation [90.28365183660438]
本稿では、注意部分モジュールと微分可能な自動データ拡張を備えた拡張並列ピラミドネットを提案する。我々は、データ拡張のシーケンスをトレーニング可能なCNNコンポーネントとして定式化する新しいポーズ検索空間を定義する。特に,本手法は,挑戦的なCOCOキーポイントベンチマークとMPIIデータセットの最先端結果において,トップ1の精度を実現する。
論文参考訳（メタデータ） (2020-03-17T03:52:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。