論文の概要: DS-Det: Single-Query Paradigm and Attention Disentangled Learning for Flexible Object Detection
- arxiv url: http://arxiv.org/abs/2507.19807v1
- Date: Sat, 26 Jul 2025 05:40:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.267377
- Title: DS-Det: Single-Query Paradigm and Attention Disentangled Learning for Flexible Object Detection
- Title(参考訳): DS-Det:フレキシブルオブジェクト検出のための単一クエリパラダイムと注意分散学習
- Authors: Guiping Cao, Xiangyuan Lan, Wenjian Huang, Jianguo Zhang, Dongmei Jiang, Yaowei Wang,
- Abstract要約: 画像中のフレキシブルな数の物体を検出できるより効率的な変換器検出器DS-Detを提案する。
具体的には、デコーダモデリングのための新しい統合シングルクエリパラダイムを再構成し、導入する。
また,注意障害学習による簡易デコーダフレームワークを提案する。
- 参考スコア(独自算出の注目度): 39.56089737473775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Popular transformer detectors have achieved promising performance through query-based learning using attention mechanisms. However, the roles of existing decoder query types (e.g., content query and positional query) are still underexplored. These queries are generally predefined with a fixed number (fixed-query), which limits their flexibility. We find that the learning of these fixed-query is impaired by Recurrent Opposing inTeractions (ROT) between two attention operations: Self-Attention (query-to-query) and Cross-Attention (query-to-encoder), thereby degrading decoder efficiency. Furthermore, "query ambiguity" arises when shared-weight decoder layers are processed with both one-to-one and one-to-many label assignments during training, violating DETR's one-to-one matching principle. To address these challenges, we propose DS-Det, a more efficient detector capable of detecting a flexible number of objects in images. Specifically, we reformulate and introduce a new unified Single-Query paradigm for decoder modeling, transforming the fixed-query into flexible. Furthermore, we propose a simplified decoder framework through attention disentangled learning: locating boxes with Cross-Attention (one-to-many process), deduplicating predictions with Self-Attention (one-to-one process), addressing "query ambiguity" and "ROT" issues directly, and enhancing decoder efficiency. We further introduce a unified PoCoo loss that leverages box size priors to prioritize query learning on hard samples such as small objects. Extensive experiments across five different backbone models on COCO2017 and WiderPerson datasets demonstrate the general effectiveness and superiority of DS-Det. The source codes are available at https://github.com/Med-Process/DS-Det/.
- Abstract(参考訳): 人気のトランス検出器は、アテンションメカニズムを用いたクエリベースの学習を通じて、有望な性能を実現している。
しかし、既存のデコーダクエリータイプ(例えば、コンテンツクエリーと位置クエリー)の役割はまだ解明されていない。
これらのクエリは通常、その柔軟性を制限する固定数(fixed-query)で事前定義される。
これらの固定クエリの学習は,2つの注意操作(Self-Attention (query-to-query) とCross-Attention (query-to-encoder) の2つの操作の繰り返し動作(ROT)によって損なわれ,デコーダの効率が低下することが判明した。
さらに、共有重み付きデコーダ層がトレーニング中に1対1のラベル割り当てと1対1のラベル割り当てで処理され、DETRの1対1のマッチング原理に反する「クエリ曖昧さ」が発生する。
これらの課題に対処するために,画像中のフレキシブルな数の物体を検出可能な,より効率的な検出器DS-Detを提案する。
具体的には、デコーダモデリングのための新しい統一シングルクエリパラダイムを再構成し、導入し、固定クエリをフレキシブルに変換する。
さらに,横断的意図(一対多のプロセス)によるボックスの配置,自己意図(一対一のプロセス)による予測の分離,問合せの曖昧さとROT問題への対処,デコーダ効率の向上などにより,注意を散らした学習を通じて簡易なデコーダフレームワークを提案する。
さらに、ボックスサイズを利用して、小さなオブジェクトのようなハードサンプル上でクエリ学習を優先順位付けする統合PoCooロスを導入します。
COCO2017とWiderPersonデータセット上の5つのバックボーンモデルに対する大規模な実験は、DS-Detの一般的な有効性と優位性を示している。
ソースコードはhttps://github.com/Med-Process/DS-Det/で入手できる。
関連論文リスト
- Dynamic Object Queries for Transformer-based Incremental Object Detection [45.41291377837515]
インクリメンタルオブジェクト検出は、新しいクラスを逐次学習することを目的としている。
従来の方法論は主に知識の蒸留と模範的な再生を通じて忘れる問題に取り組む。
安定塑性トレードオフを実現するためのモデル表現能力を漸進的に拡張するDyQ-DETRを提案する。
論文 参考訳(メタデータ) (2024-07-31T15:29:34Z) - RQFormer: Rotated Query Transformer for End-to-End Oriented Object Detection [26.37802649901314]
オブジェクト指向オブジェクト検出は、複数の向き、様々なスケール、密度分布を持つオブジェクトインスタンスの存在により、困難なタスクを呈する。
本稿では、2つの重要な技術を統合するRotated Query Transformerと呼ばれるエンドツーエンド指向型検出器を提案する。
4つのリモートセンシングデータセットと1つのシーンテキストデータセットを用いて実験を行い,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-11-29T13:43:17Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Unsupervised and self-adaptative techniques for cross-domain person
re-identification [82.54691433502335]
非重複カメラにおける人物再識別(ReID)は難しい課題である。
Unsupervised Domain Adaptation(UDA)は、ソースで訓練されたモデルから、IDラベルアノテーションなしでターゲットドメインへの機能学習適応を実行するため、有望な代替手段です。
本稿では,新しいオフライン戦略によって生成されたサンプルのトリプレットを利用する,UDAベースのReID手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T23:58:39Z) - Decoupled and Memory-Reinforced Networks: Towards Effective Feature
Learning for One-Step Person Search [65.51181219410763]
歩行者検出と識別サブタスクを1つのネットワークで処理するワンステップ方式を開発しました。
現在のワンステップアプローチには2つの大きな課題があります。
本稿では,これらの問題を解決するために,分離メモリ強化ネットワーク(DMRNet)を提案する。
論文 参考訳(メタデータ) (2021-02-22T06:19:45Z) - AFD-Net: Adaptive Fully-Dual Network for Few-Shot Object Detection [8.39479809973967]
Few-shot Object Detection (FSOD) は、未確認の物体に迅速に適応できる検出器の学習を目的としている。
既存の方法では、共有コンポーネントを用いて分類と局所化のサブタスクを実行することで、この問題を解決している。
本稿では,2つのサブタスクの明示的な分解を考慮し,両者の情報を活用して特徴表現の強化を図ることを提案する。
論文 参考訳(メタデータ) (2020-11-30T10:21:32Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z) - FairMOT: On the Fairness of Detection and Re-Identification in Multiple
Object Tracking [92.48078680697311]
マルチオブジェクトトラッキング(MOT)はコンピュータビジョンにおいて重要な問題である。
本稿では,FairMOTと呼ばれる,アンカーフリーなオブジェクト検出アーキテクチャCenterNetをベースとした,シンプルかつ効果的なアプローチを提案する。
このアプローチは、検出と追跡の両方において高い精度を達成する。
論文 参考訳(メタデータ) (2020-04-04T08:18:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。