論文の概要: Decoupled DETR: Spatially Disentangling Localization and Classification
for Improved End-to-End Object Detection
- arxiv url: http://arxiv.org/abs/2310.15955v1
- Date: Tue, 24 Oct 2023 15:54:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 18:01:13.198599
- Title: Decoupled DETR: Spatially Disentangling Localization and Classification
for Improved End-to-End Object Detection
- Title(参考訳): decoupled DETR: 終端物体検出のための空間的距離化と分類
- Authors: Manyuan Zhang, Guanglu Song, Yu Liu, Hongsheng Li
- Abstract要約: 本稿では,タスク認識型問合せ生成モジュールと切り離された特徴学習プロセスを含む空間的に分離されたDETRを紹介する。
提案手法は,従来の研究に比べてMSCOCOデータセットの大幅な改善を実現していることを示す。
- 参考スコア(独自算出の注目度): 48.429555904690595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The introduction of DETR represents a new paradigm for object detection.
However, its decoder conducts classification and box localization using shared
queries and cross-attention layers, leading to suboptimal results. We observe
that different regions of interest in the visual feature map are suitable for
performing query classification and box localization tasks, even for the same
object. Salient regions provide vital information for classification, while the
boundaries around them are more favorable for box regression. Unfortunately,
such spatial misalignment between these two tasks greatly hinders DETR's
training. Therefore, in this work, we focus on decoupling localization and
classification tasks in DETR. To achieve this, we introduce a new design scheme
called spatially decoupled DETR (SD-DETR), which includes a task-aware query
generation module and a disentangled feature learning process. We elaborately
design the task-aware query initialization process and divide the
cross-attention block in the decoder to allow the task-aware queries to match
different visual regions. Meanwhile, we also observe that the prediction
misalignment problem for high classification confidence and precise
localization exists, so we propose an alignment loss to further guide the
spatially decoupled DETR training. Through extensive experiments, we
demonstrate that our approach achieves a significant improvement in MSCOCO
datasets compared to previous work. For instance, we improve the performance of
Conditional DETR by 4.5 AP. By spatially disentangling the two tasks, our
method overcomes the misalignment problem and greatly improves the performance
of DETR for object detection.
- Abstract(参考訳): DETRの導入は、オブジェクト検出の新しいパラダイムである。
しかし、そのデコーダは、共有クエリとクロスアテンションレイヤを使って分類とボックスのローカライゼーションを行い、亜最適結果をもたらす。
視覚特徴マップに対する関心の異なる領域が、同じオブジェクトであっても、クエリ分類やボックスローカライゼーションタスクの実行に適していることを確認する。
サルエント領域は分類に不可欠な情報を提供し、周囲の境界はボックス回帰に有利である。
残念ながら、これらの2つのタスク間の空間的不整合は、DETRの訓練を著しく妨げている。
そこで本研究では,DETRにおける局所化タスクと分類タスクの分離に着目した。
そこで本研究では,タスク認識型クエリ生成モジュールと不整合特徴学習プロセスを含む空間分離型DETR (SD-DETR) と呼ばれる新しい設計手法を提案する。
タスク対応クエリの初期化プロセスを精巧に設計し、デコーダ内のクロスアテンションブロックを分割し、タスク対応クエリを異なる視覚領域にマッチさせる。
また,高い分類信頼度と正確な位置推定のための予測ミスアライメント問題が存在することを観察し,空間的に分離されたdetrトレーニングをさらに導くためのアライメント損失を提案する。
広範にわたる実験により,本手法は過去の研究と比較して,MSCOCOデータセットの大幅な改善を実現していることを示す。
例えば、条件付きDETRの性能を4.5 APで改善する。
この2つのタスクを空間的に切り離すことで、不整合問題を克服し、オブジェクト検出のためのDETRの性能を大幅に改善する。
関連論文リスト
- Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - Task-Specific Context Decoupling for Object Detection [27.078743716924752]
排他的手法は通常、切り離された頭を使って各タスクの異なる特徴コンテキストを学習する。
本稿では,2つのタスクに対する特徴符号化をさらに切り離した新しいタスク特化コームテキストデカップリング(TSCODE)を提案する。
本手法は計算コストを抑えて1.0 AP以上の異なる検出器を安定的に改善する。
論文 参考訳(メタデータ) (2023-03-02T08:02:14Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - ReAct: Temporal Action Detection with Relational Queries [84.76646044604055]
本研究は,アクションクエリを備えたエンコーダ・デコーダフレームワークを用いて,時間的行動検出(TAD)の進展を図ることを目的とする。
まず,デコーダ内の関係注意機構を提案し,その関係に基づいてクエリ間の関心を誘導する。
最後に、高品質なクエリを区別するために、推論時に各アクションクエリのローカライズ品質を予測することを提案する。
論文 参考訳(メタデータ) (2022-07-14T17:46:37Z) - Task-specific Inconsistency Alignment for Domain Adaptive Object
Detection [38.027790951157705]
大量のラベル付きデータでトレーニングされた検出器は、データ分散ギャップのある特定のシナリオで劇的なパフォーマンス劣化を示すことが多い。
本稿では,タスク固有の不整合アライメント(TIA)を提案する。
TIAは,従来の最先端手法よりも,様々なシナリオにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-03-29T08:36:33Z) - Salient Object Ranking with Position-Preserved Attention [44.94722064885407]
本研究では,検出対象のランク付け順序を視覚的サリエンシに応じて割り当てるSOR(Salient Object Ranking)タスクについて検討する。
本稿では,SORタスクの最初のエンドツーエンドフレームワークを提案し,マルチタスク学習方式で解決する。
また、SORブランチ用に調整されたPPAモジュールも導入する。
論文 参考訳(メタデータ) (2021-06-09T13:00:05Z) - Learning to Relate Depth and Semantics for Unsupervised Domain
Adaptation [87.1188556802942]
教師なしドメイン適応(UDA)設定において,視覚的タスク関係を符号化してモデル性能を向上させる手法を提案する。
本稿では,意味的および深さ的予測のタスク依存性を符号化する新しいクロスタスク関係層(ctrl)を提案する。
さらに、セマンティック擬似ラベルを利用してターゲットドメインを監督する反復自己学習(ISL)トレーニングスキームを提案する。
論文 参考訳(メタデータ) (2021-05-17T13:42:09Z) - Modulating Localization and Classification for Harmonized Object
Detection [40.82723262074911]
2つのタスクを変調する相互学習フレームワークを提案する。
特に,2つのタスクは,新たな相互ラベル付け戦略によって互いに学習することを余儀なくされる。
COCOデータセットのベースライン検出器に対する大幅なパフォーマンス向上を実現しました。
論文 参考訳(メタデータ) (2021-03-16T10:36:02Z) - Pairwise Similarity Knowledge Transfer for Weakly Supervised Object
Localization [53.99850033746663]
弱教師付き画像ラベルを持つ対象クラスにおける局所化モデル学習の問題点について検討する。
本研究では,対象関数のみの学習は知識伝達の弱い形態であると主張する。
COCOおよびILSVRC 2013検出データセットの実験では、ペアワイズ類似度関数を含むことにより、ローカライズモデルの性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2020-03-18T17:53:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。