論文の概要: Align-DETR: Improving DETR with Simple IoU-aware BCE loss
- arxiv url: http://arxiv.org/abs/2304.07527v1
- Date: Sat, 15 Apr 2023 10:24:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 18:33:17.637437
- Title: Align-DETR: Improving DETR with Simple IoU-aware BCE loss
- Title(参考訳): Align-DETR:単純なIoU対応BCE損失によるDETRの改善
- Authors: Zhi Cai, Songtao Liu, Guodong Wang, Zheng Ge, Xiangyu Zhang and Di
Huang
- Abstract要約: そこで本稿では, 誤り訂正問題を定量的に評価するために, ベストレグレッションされたサンプルをリコールする計量法を提案する。
提案した損失であるIA-BCEは、DeTRのトレーニングをガイドし、分類スコアとローカライゼーション精度の強い相関関係を構築する。
クエリのスパーシリティによって引き起こされるサンプル品質の劇的な低下を克服するために,プライマリサンプル重み付け機構を導入する。
- 参考スコア(独自算出の注目度): 32.13866392998818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: DETR has set up a simple end-to-end pipeline for object detection by
formulating this task as a set prediction problem, showing promising potential.
However, despite the significant progress in improving DETR, this paper
identifies a problem of misalignment in the output distribution, which prevents
the best-regressed samples from being assigned with high confidence, hindering
the model's accuracy. We propose a metric, recall of best-regressed samples, to
quantitively evaluate the misalignment problem. Observing its importance, we
propose a novel Align-DETR that incorporates a localization precision-aware
classification loss in optimization. The proposed loss, IA-BCE, guides the
training of DETR to build a strong correlation between classification score and
localization precision. We also adopt the mixed-matching strategy, to
facilitate DETR-based detectors with faster training convergence while keeping
an end-to-end scheme. Moreover, to overcome the dramatic decrease in sample
quality induced by the sparsity of queries, we introduce a prime sample
weighting mechanism to suppress the interference of unimportant samples.
Extensive experiments are conducted with very competitive results reported. In
particular, it delivers a 46 (+3.8)% AP on the DAB-DETR baseline with the
ResNet-50 backbone and reaches a new SOTA performance of 50.2% AP in the 1x
setting on the COCO validation set when employing the strong baseline DINO. Our
code is available at https://github.com/FelixCaae/AlignDETR.
- Abstract(参考訳): DETRは、このタスクをセット予測問題として定式化し、有望なポテンシャルを示すことによって、オブジェクト検出のためのシンプルなエンドツーエンドパイプラインを構築した。
しかし,detr改善の著しい進展にもかかわらず,本論文では出力分布のミスアライメントの問題を明らかにし,最良サンプルの信頼度の高い割り当てを防止し,モデルの精度を損なう。
そこで本研究では, 誤り訂正問題を定量的に評価するために, 最良回帰サンプルのリコール尺度を提案する。
そこで本研究では,局所化精度を考慮した分類損失を最適化に組み込んだAlign-DETRを提案する。
提案した損失IA-BCEはDETRのトレーニングをガイドし、分類スコアと局所化精度の強い相関関係を構築する。
また,複合マッチング方式を採用し,エンドツーエンドのスキームを維持しつつ,より高速なトレーニング収束でdetrベースの検出を容易にする。
さらに,クエリの分散によって生じるサンプル品質の劇的な低下を克服するために,重要でないサンプルの干渉を抑制するための素試料重み付け機構を導入する。
激しい実験が行われ、非常に競争的な結果が報告された。
特に、DAB-DETRベースラインに46 (+3.8)%のAPをResNet-50バックボーンで供給し、強力なベースラインDINOを使用する場合、COCO検証セットの1x設定で50.2%の新たなSOTA性能に達する。
私たちのコードはhttps://github.com/FelixCaae/AlignDETR.comで利用可能です。
関連論文リスト
- Relation DETR: Exploring Explicit Position Relation Prior for Object Detection [26.03892270020559]
本稿では,DETR(Detection TRansformer)の収束性と性能を向上させる手法を提案する。
我々の手法であるRelation-DETRは、プログレッシブ・アテンション・リファインメントのための位置関係埋め込みを構築するエンコーダを導入している。
汎用データセットとタスク固有のデータセットの両方の実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-07-16T13:17:07Z) - Salience DETR: Enhancing Detection Transformer with Hierarchical Salience Filtering Refinement [19.277560848076984]
2段階の選択戦略は、選択したクエリとオブジェクトのミスマッチによるスケールバイアスと冗長性をもたらす。
本稿では,フィルタされた識別クエリのみにトランスフォーマーを符号化する階層型サリエンスフィルタリング精細化を提案する。
提案されたSalience DETRは、課題固有の3つのデータセットに対して、+4.0% AP、+0.2% AP、+4.4% APを大幅に改善する。
論文 参考訳(メタデータ) (2024-03-24T13:01:57Z) - Theoretically Achieving Continuous Representation of Oriented Bounding Boxes [64.15627958879053]
本論文は,オブジェクト指向境界ボックス表現における不連続性を完全に解決しようとする試みである。
本研究では,既存の検出器に容易に統合可能なCOBB(Continuous OBB)という新しい表現法を提案する。
OOD評価のためのオープンソースのディープラーニングフレームワークJittorの検出ツールボックスJDetをベースとした,モジュール化されたベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-29T09:27:40Z) - End-to-End Lane detection with One-to-Several Transformer [6.79236957488334]
O2SFormerはResNet18バックボーンのDETRよりも12.5倍高速に収束する。
ResNet50のバックボーンを持つO2SFormerは、CULaneデータセット上で77.83%のF1スコアを獲得し、既存のTransformerベースおよびCNNベースの検出器を上回っている。
論文 参考訳(メタデータ) (2023-05-01T06:07:11Z) - Detection Transformer with Stable Matching [48.963171068785435]
もっとも重要な設計は, 肯定的な事例の分類スコアを監督するために, 位置測定値のみを使用することである。
本原理では,DTRの分類損失とマッチングコストに位置測定値を統合することで,簡易かつ効果的な2つの修正を提案する。
12エポックおよび24エポックのトレーニング設定の下でResNet-50バックボーンを用いてCOCO検出ベンチマークで50.4および51.5APを達成する。
論文 参考訳(メタデータ) (2023-04-10T17:55:37Z) - DETRs with Hybrid Matching [21.63116788914251]
1対1のセットマッチングは、DETRがエンドツーエンドの機能を確立するための鍵となる設計である。
本稿では,従来の1対1のマッチングブランチと,トレーニング中に補助的な1対1のマッチングブランチを組み合わせるハイブリッドマッチング方式を提案する。
論文 参考訳(メタデータ) (2022-07-26T17:52:14Z) - Accelerating DETR Convergence via Semantic-Aligned Matching [50.3633635846255]
本稿では,DTRの精度を犠牲にすることなく,DTRの収束を大幅に加速するセマンティック整合DTRであるSAM-DETRを提案する。
意味整合性マッチングにおいて最も識別性の高い特徴を持つ有能な点を明示的に検索し、収束をさらに高速化し、検出精度も向上する。
論文 参考訳(メタデータ) (2022-03-14T06:50:51Z) - Disentangle Your Dense Object Detector [82.22771433419727]
深層学習に基づく高密度物体検出器はここ数年で大きな成功を収め、ビデオ理解などのマルチメディアアプリケーションにも応用されてきた。
しかし、現在の高密度検出器の訓練パイプラインは、保持できない多くの接続に妥協されている。
そこで本研究では, 簡易かつ効果的な遠心分離機構を設計し, 現在の最先端検出器に統合するDED(Disentangled Dense Object Detector)を提案する。
論文 参考訳(メタデータ) (2021-07-07T00:52:16Z) - Higher Performance Visual Tracking with Dual-Modal Localization [106.91097443275035]
Visual Object Tracking (VOT)は、堅牢性と正確性の両方に同期性を必要とする。
ONRによるロバストなローカリゼーション抑制器とOFCによるターゲットセンターへの正確なローカリゼーションにより、ターゲットローカリゼーションのためのデュアルモーダルフレームワークを提案します。
論文 参考訳(メタデータ) (2021-03-18T08:47:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。