論文の概要: Generalized Focal Loss V2: Learning Reliable Localization Quality
Estimation for Dense Object Detection
- arxiv url: http://arxiv.org/abs/2011.12885v1
- Date: Wed, 25 Nov 2020 17:06:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 03:14:22.307902
- Title: Generalized Focal Loss V2: Learning Reliable Localization Quality
Estimation for Dense Object Detection
- Title(参考訳): 一般化された焦点損失V2:Dense Object Detectionのための信頼性の高い位置化品質推定学習
- Authors: Xiang Li, Wenhai Wang, Xiaolin Hu, Jun Li, Jinhui Tang, Jian Yang
- Abstract要約: GFLV2 (ResNet-101) は14.6 FPSで46.2 APを達成し、以前の最先端ATSSベースライン (43.6 AP at 14.6 FPS) をCOCO tt test-devで絶対2.6 APで上回った。
コードはhttps://github.com/implus/GFocalV2.comから入手できる。
- 参考スコア(独自算出の注目度): 78.11775981796367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Localization Quality Estimation (LQE) is crucial and popular in the recent
advancement of dense object detectors since it can provide accurate ranking
scores that benefit the Non-Maximum Suppression processing and improve
detection performance. As a common practice, most existing methods predict LQE
scores through vanilla convolutional features shared with object classification
or bounding box regression. In this paper, we explore a completely novel and
different perspective to perform LQE -- based on the learned distributions of
the four parameters of the bounding box. The bounding box distributions are
inspired and introduced as "General Distribution" in GFLV1, which describes the
uncertainty of the predicted bounding boxes well. Such a property makes the
distribution statistics of a bounding box highly correlated to its real
localization quality. Specifically, a bounding box distribution with a sharp
peak usually corresponds to high localization quality, and vice versa. By
leveraging the close correlation between distribution statistics and the real
localization quality, we develop a considerably lightweight Distribution-Guided
Quality Predictor (DGQP) for reliable LQE based on GFLV1, thus producing GFLV2.
To our best knowledge, it is the first attempt in object detection to use a
highly relevant, statistical representation to facilitate LQE. Extensive
experiments demonstrate the effectiveness of our method. Notably, GFLV2
(ResNet-101) achieves 46.2 AP at 14.6 FPS, surpassing the previous
state-of-the-art ATSS baseline (43.6 AP at 14.6 FPS) by absolute 2.6 AP on COCO
{\tt test-dev}, without sacrificing the efficiency both in training and
inference. Code will be available at https://github.com/implus/GFocalV2.
- Abstract(参考訳): 局所的品質推定(lqe)は、非最大抑制処理に有利な正確なランキングスコアを提供し、検出性能を向上させることができるため、近年の高密度物体検出器の発展において重要かつ普及している。
一般的な手法として、ほとんどの既存の手法は、オブジェクト分類やバウンディングボックス回帰と共有されるバニラ畳み込み特徴を通してLQEスコアを予測する。
本稿では,境界ボックスの4つのパラメータの学習分布に基づいて,LQEを実行するための全く新しい,異なる視点を探求する。
境界ボックス分布はgflv1にインスパイアされて「一般分布」として導入され、予測された境界ボックスの不確かさをよく記述している。
そのような性質は、有界箱の分布統計を、その実位置化品質と強く相関させる。
具体的には、鋭いピークを持つ有界箱分布は、通常、高い局所化品質に対応する。
分布統計と実際の局在品質との密接な相関を利用して,gflv1に基づく信頼性の高いlqeのための,かなり軽量な分布誘導型品質予測器(dgqp)を開発し,gflv2を生成する。
我々の知る限り、LQEを促進するために非常に関連性の高い統計的表現を用いたオブジェクト検出の最初の試みである。
広範な実験により本手法の有効性が実証された。
特に GFLV2 (ResNet-101) は 14.6 FPS で 46.2 AP を達成し、トレーニングと推論の両方の効率を犠牲にすることなく、COCO {\tt test-dev} 上の絶対 2.6 AP で最先端の ATSS ベースライン (43.6 AP で 14.6 FPS) を突破した。
コードはhttps://github.com/implus/gfocalv2で入手できる。
関連論文リスト
- Weak Distribution Detectors Lead to Stronger Generalizability of Vision-Language Prompt Tuning [44.34372470957298]
本稿では,事前学習型視覚言語モデル(VLM)の一般化能力を向上する手法を提案する。
このアイデアは、オフ・オブ・ディストリビューション(OOD)検出を利用して、サンプルがベース分布に属しているか、あるいは新しい分布に属しているかを予測することによって実現される。
OOD検出器の助けを借りて、CoOpとProGradの調和平均は、ベース・ツー・ノーベル・セッティングにおいて11の認識データセットに対して2.6から1.5ポイント増加する。
論文 参考訳(メタデータ) (2024-03-31T08:28:42Z) - Being Aware of Localization Accuracy By Generating Predicted-IoU-Guided
Quality Scores [24.086202809990795]
予測IoUにより誘導される局所化品質スコアを取得するためのエレガントなLQEブランチを開発する。
CLQと呼ばれる新しい1段検出器が提案されている。
実験の結果、CLQは47.8 APと11.5fpsの精度で最先端の性能を達成した。
論文 参考訳(メタデータ) (2023-09-23T05:27:59Z) - Distribution-Aware Calibration for Object Detection with Noisy Bounding Boxes [58.2797274877934]
そこで我々はDISCO(Distribution-aware CalibratiOn)を提案する。
分類, 局所化, 解釈可能性を改善するために, 3つの分布認識技術を開発した。
論文 参考訳(メタデータ) (2023-08-23T09:20:05Z) - Divide and Contrast: Source-free Domain Adaptation via Adaptive
Contrastive Learning [122.62311703151215]
Divide and Contrast (DaC) は、それぞれの制限を回避しつつ、両方の世界の善良な端を接続することを目的としている。
DaCは、ターゲットデータをソースライクなサンプルとターゲット固有なサンプルに分割する。
さらに、ソースライクなドメインと、メモリバンクベースの最大平均離散性(MMD)損失を用いて、ターゲット固有のサンプルとを整合させて、分散ミスマッチを低減する。
論文 参考訳(メタデータ) (2022-11-12T09:21:49Z) - Source-Free Progressive Graph Learning for Open-Set Domain Adaptation [44.63301903324783]
オープンセットドメイン適応(OSDA)は多くの視覚認識タスクで注目されている。
目的仮説空間を共有空間と未知の部分空間に分解するプログレッシブグラフ学習(PGL)フレームワークを提案する。
また、ソースとターゲットドメインの共存を前提としない、より現実的なオープンソースフリーなオープンセットドメイン適応(SF-OSDA)に取り組みます。
論文 参考訳(メタデータ) (2022-02-13T01:19:41Z) - Achieving Statistical Optimality of Federated Learning: Beyond
Stationary Points [19.891597817559038]
Federated Learning(FL)は、プライバシ保護とクラウドでの計算負荷の低減に大きな可能性を持つ、有望なフレームワークである。
最近の研究は、(1)その固定点が元の最適化問題の定常点に対応していないこと、(2)見いだされた共通モデルが局所的にうまく一般化できないこと、の2つの方法に対する懸念を提起している。
一般的なカーネル回帰設定では、FedAvgとFedProxの両方が極小最大誤差率に収束することを示す。
論文 参考訳(メタデータ) (2021-06-29T09:59:43Z) - Alpha-Refine: Boosting Tracking Performance by Precise Bounding Box
Estimation [85.22775182688798]
この研究はAlpha-Refineと呼ばれる新しい、柔軟で正確な改良モジュールを提案する。
これにより、ベーストラッカーのボックス推定品質が大幅に向上する。
TrackingNet, LaSOT, GOT-10K, VOT 2020 ベンチマークの実験では,我々のアプローチがベーストラッカのパフォーマンスを大幅に改善し,遅延がほとんどなかった。
論文 参考訳(メタデータ) (2020-12-12T13:33:25Z) - Learning Calibrated Uncertainties for Domain Shift: A Distributionally
Robust Learning Approach [150.8920602230832]
ドメインシフトの下で校正された不確実性を学習するためのフレームワークを提案する。
特に、密度比推定は、ターゲット(テスト)サンプルの近さをソース(トレーニング)分布に反映する。
提案手法は下流タスクに有利な校正不確実性を生成する。
論文 参考訳(メタデータ) (2020-10-08T02:10:54Z) - Generalized Focal Loss: Learning Qualified and Distributed Bounding
Boxes for Dense Object Detection [85.53263670166304]
一段検出器は基本的に、物体検出を密度の高い分類と位置化として定式化する。
1段検出器の最近の傾向は、局所化の質を推定するために個別の予測分岐を導入することである。
本稿では, 上記の3つの基本要素, 品質推定, 分類, ローカライゼーションについて述べる。
論文 参考訳(メタデータ) (2020-06-08T07:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。