論文の概要: RHINO: Rotated DETR with Dynamic Denoising via Hungarian Matching for
Oriented Object Detection
- arxiv url: http://arxiv.org/abs/2305.07598v3
- Date: Tue, 6 Jun 2023 09:06:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 19:59:03.520842
- Title: RHINO: Rotated DETR with Dynamic Denoising via Hungarian Matching for
Oriented Object Detection
- Title(参考訳): RHINO: ハンガリーマッチングによる動的デノーミングによる回転DETRによるオブジェクト指向物体検出
- Authors: Hakjin Lee, Minki Song, Jamyoung Koo, Junghoon Seo
- Abstract要約: オブジェクト指向物体検出のための第1の強力なDINOベースラインを提案する。
オブジェクト指向物体検出のための直接的なDETRの利用は、非重複予測を保証するものではない。
ハンガリー語マッチングを使って冗長なノイズクエリをフィルタリングする、textitdynamic denoising$戦略を導入する。
- 参考スコア(独自算出の注目度): 5.5438676149999075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the publication of DINO, a variant of the Detection Transformer (DETR),
Detection Transformers are breaking the record in the object detection
benchmark with the merits of their end-to-end design and scalability. However,
the extension of DETR to oriented object detection has not been thoroughly
studied although more benefits from its end-to-end architecture are expected
such as removing NMS and anchor-related costs. In this paper, we propose a
first strong DINO-based baseline for oriented object detection. We found that
straightforward employment of DETRs for oriented object detection does not
guarantee non-duplicate prediction, and propose a simple cost to mitigate this.
Furthermore, we introduce a $\textit{dynamic denoising}$ strategy that uses
Hungarian matching to filter redundant noised queries and $\textit{query
alignment}$ to preserve matching consistency between Transformer decoder
layers. Our proposed model outperforms previous rotated DETRs and other
counterparts, achieving state-of-the-art performance in DOTA-v1.0/v1.5/v2.0,
and DIOR-R benchmarks.
- Abstract(参考訳): Detection Transformer (DETR) の変種である DINO の公開により,検出トランスフォーマーは,エンドツーエンドの設計とスケーラビリティのメリットによって,オブジェクト検出ベンチマークにおける記録を破っている。
しかし、detrのオブジェクト指向オブジェクト検出への拡張は十分に研究されていないが、nmsの除去やアンカー関連コストといったエンドツーエンドアーキテクチャの利点が期待されている。
本稿では,指向オブジェクト検出のための最初の強 dino ベースラインを提案する。
指向オブジェクト検出のためのdetrの直接的採用は非重複予測を保証せず、これを緩和するための簡単なコストを提案している。
さらに、$\textit{dynamic denoising}$戦略を導入し、ハンガリーマッチングを使用して冗長なノイズクエリをフィルタリングし、$\textit{query alignment}$を使用してトランスフォーマデコーダ層間の一貫性を保つ。
提案手法は, DOTA-v1.0/v1.5/v2.0 および DIOR-R ベンチマークにおいて, 先行する DETR などの性能より優れていた。
関連論文リスト
- Relation DETR: Exploring Explicit Position Relation Prior for Object Detection [26.03892270020559]
本稿では,DETR(Detection TRansformer)の収束性と性能を向上させる手法を提案する。
我々の手法であるRelation-DETRは、プログレッシブ・アテンション・リファインメントのための位置関係埋め込みを構築するエンコーダを導入している。
汎用データセットとタスク固有のデータセットの両方の実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-07-16T13:17:07Z) - TD^2-Net: Toward Denoising and Debiasing for Dynamic Scene Graph
Generation [76.24766055944554]
動的SGGのデノベーションとデボアシングを目的としたネットワークTD$2$-Netを導入する。
TD$2$-Netは、述語分類における平均リコール@10で、第2位の競争相手を12.7%上回っている。
論文 参考訳(メタデータ) (2024-01-23T04:17:42Z) - Rank-DETR for High Quality Object Detection [52.82810762221516]
高性能なオブジェクト検出器は、バウンディングボックス予測の正確なランキングを必要とする。
本研究では, 簡易かつ高性能なDETR型物体検出器について, 一連のランク指向設計を提案して紹介する。
論文 参考訳(メタデータ) (2023-10-13T04:48:32Z) - Efficient Decoder-free Object Detection with Transformers [75.00499377197475]
視覚変換器(ViT)は、物体検出アプローチのランドスケープを変化させている。
本稿では,デコーダフリー完全トランス(DFFT)オブジェクト検出器を提案する。
DFFT_SMALLは、トレーニングおよび推論段階で高い効率を達成する。
論文 参考訳(メタデータ) (2022-06-14T13:22:19Z) - Analyzing and Mitigating Interference in Neural Architecture Search [96.60805562853153]
本研究では、異なる子モデルをサンプリングし、共有演算子の勾配類似度を計算することで干渉問題を解明する。
これら2つの観測から着想を得て、干渉を緩和するための2つのアプローチを提案する。
検索したアーキテクチャは、RoBERTa$_rmbase$が1.1、0.6、ELECTRA$_rmbase$が1.6、テストセットであるGLUEベンチマークで1.1より優れています。
論文 参考訳(メタデータ) (2021-08-29T11:07:46Z) - Which to Match? Selecting Consistent GT-Proposal Assignment for
Pedestrian Detection [23.92066492219922]
IoU(Universal Intersection over Union)ベースの割り当て-回帰方式は依然としてパフォーマンスを制限している。
新しい割り当てと回帰メトリックとして、1つの幾何学的敏感検索アルゴリズムを紹介します。
具体的には、MR-FPPIをR$_75$で8.8%向上させます。
論文 参考訳(メタデータ) (2021-03-18T08:54:51Z) - SADet: Learning An Efficient and Accurate Pedestrian Detector [68.66857832440897]
本稿では,一段検出器の検出パイプラインに対する一連の最適化手法を提案する。
効率的な歩行者検出のための単発アンカーベース検出器(SADet)を形成する。
構造的には単純だが、VGA解像度の画像に対して最先端の結果と20ドルFPSのリアルタイム速度を示す。
論文 参考訳(メタデータ) (2020-07-26T12:32:38Z) - A Systematic Evaluation of Object Detection Networks for Scientific
Plots [17.882932963813985]
PlotQAデータセット上で、様々なSOTAオブジェクト検出ネットワークの精度をトレーニングし比較する。
0.5の標準IOU設定では、ほとんどのネットワークはプロット内の比較的単純な物体を検出する場合、mAPスコアが80%以上である。
しかし、パフォーマンスは0.9のより厳格なIOUで評価されると大幅に低下し、最高のモデルでmAPは35.70%となった。
論文 参考訳(メタデータ) (2020-07-05T05:30:53Z) - Detection in Crowded Scenes: One Proposal, Multiple Predictions [79.28850977968833]
混み合ったシーンにおける高過度なインスタンスを検出することを目的とした,提案手法によるオブジェクト検出手法を提案する。
このアプローチの鍵は、各提案が以前の提案ベースのフレームワークの1つではなく、関連したインスタンスのセットを予測できるようにすることです。
我々の検出器は、CrowdHumanデータセットの挑戦に対して4.9%のAPゲインを得ることができ、CityPersonsデータセットでは1.0%$textMR-2$の改善がある。
論文 参考訳(メタデータ) (2020-03-20T09:48:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。