論文の概要: Generalized Focal Loss: Learning Qualified and Distributed Bounding
Boxes for Dense Object Detection
- arxiv url: http://arxiv.org/abs/2006.04388v1
- Date: Mon, 8 Jun 2020 07:24:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 02:02:40.236830
- Title: Generalized Focal Loss: Learning Qualified and Distributed Bounding
Boxes for Dense Object Detection
- Title(参考訳): 一般化焦点損失:密集物体検出のための資格と分散境界ボックスの学習
- Authors: Xiang Li, Wenhai Wang, Lijun Wu, Shuo Chen, Xiaolin Hu, Jun Li, Jinhui
Tang and Jian Yang
- Abstract要約: 一段検出器は基本的に、物体検出を密度の高い分類と位置化として定式化する。
1段検出器の最近の傾向は、局所化の質を推定するために個別の予測分岐を導入することである。
本稿では, 上記の3つの基本要素, 品質推定, 分類, ローカライゼーションについて述べる。
- 参考スコア(独自算出の注目度): 85.53263670166304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One-stage detector basically formulates object detection as dense
classification and localization. The classification is usually optimized by
Focal Loss and the box location is commonly learned under Dirac delta
distribution. A recent trend for one-stage detectors is to introduce an
individual prediction branch to estimate the quality of localization, where the
predicted quality facilitates the classification to improve detection
performance. This paper delves into the representations of the above three
fundamental elements: quality estimation, classification and localization. Two
problems are discovered in existing practices, including (1) the inconsistent
usage of the quality estimation and classification between training and
inference and (2) the inflexible Dirac delta distribution for localization when
there is ambiguity and uncertainty in complex scenes. To address the problems,
we design new representations for these elements. Specifically, we merge the
quality estimation into the class prediction vector to form a joint
representation of localization quality and classification, and use a vector to
represent arbitrary distribution of box locations. The improved representations
eliminate the inconsistency risk and accurately depict the flexible
distribution in real data, but contain continuous labels, which is beyond the
scope of Focal Loss. We then propose Generalized Focal Loss (GFL) that
generalizes Focal Loss from its discrete form to the continuous version for
successful optimization. On COCO test-dev, GFL achieves 45.0\% AP using
ResNet-101 backbone, surpassing state-of-the-art SAPD (43.5\%) and ATSS
(43.6\%) with higher or comparable inference speed, under the same backbone and
training settings. Notably, our best model can achieve a single-model
single-scale AP of 48.2\%, at 10 FPS on a single 2080Ti GPU. Code and models
are available at https://github.com/implus/GFocal.
- Abstract(参考訳): 一段検出器は基本的に、物体検出を密度の高い分類と位置化として定式化する。
分類は通常フォカルロスによって最適化され、ボックスの位置はディラックデルタ分布の下で一般的に学習される。
最近の1段階検出器のトレンドは、予測品質が検出性能を向上させるために分類が容易となる局所化の品質を推定する個別予測ブランチを導入することである。
本稿では, 上記の3つの基本要素, 品質推定, 分類, 局所化について述べる。
既存の手法では,(1) 訓練と推論の質推定と分類の不整合,(2) 複雑な場面における曖昧さと不確実性がある場合の局所化の非フレキシブルディラックデルタ分布,の2つの問題点が指摘されている。
この問題に対処するために、これらの要素の新しい表現を設計する。
具体的には, 品質推定をクラス予測ベクトルに融合し, 局所的品質と分類の結合表現を形成し, ボックス位置の任意の分布を表すベクトルを用いる。
改良された表現は、矛盾するリスクを排除し、実際のデータの柔軟な分布を正確に描写するが、焦点損失の範囲を超えた連続ラベルを含む。
次に、最適化を成功させるために、その離散形式から連続バージョンへの焦点損失を一般化する一般化焦点損失(gfl)を提案する。
COCOテストデブでは、GFLはResNet-101バックボーンを使用して45.0\% APを達成し、最先端のSAPD(43.5\%)とATSS(43.6\%)を上回り、バックボーンとトレーニング設定が同じである。
特に、最高のモデルはシングルモデルのシングルスケールapを1つの2080ti gpu上で10fpsで48.2\%達成できます。
コードとモデルはhttps://github.com/implus/gfocalで入手できる。
関連論文リスト
- Improving Weakly-Supervised Object Localization Using Adversarial Erasing and Pseudo Label [7.400926717561454]
本稿では,弱教師付きオブジェクトローカライゼーションの枠組みについて検討する。
それは、画像と画像レベルのクラスラベルのみを使用して、オブジェクトクラスとその位置を予測できるニューラルネットワークをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2024-04-15T06:02:09Z) - Latent Enhancing AutoEncoder for Occluded Image Classification [2.6217304977339473]
LEARN: Latent Enhancing feature Reconstruction Networkを紹介する。
オートエンコーダベースのネットワークで、頭の前に分類モデルに組み込むことができる。
OccludedPASCAL3D+データセットでは、提案されたLEARNが標準分類モデルより優れている。
論文 参考訳(メタデータ) (2024-02-10T12:22:31Z) - Activate and Reject: Towards Safe Domain Generalization under Category
Shift [71.95548187205736]
カテゴリーシフト(DGCS)下における領域一般化の実践的問題について検討する。
未知のクラスサンプルを同時に検出し、ターゲットドメイン内の既知のクラスサンプルを分類することを目的としている。
従来のDGと比較すると,1)ソースクラスのみを用いたトレーニングにおいて,未知の概念を学習する方法,2)ソーストレーニングされたモデルを未知の環境に適応する方法,の2つの新しい課題に直面している。
論文 参考訳(メタデータ) (2023-10-07T07:53:12Z) - Chaos to Order: A Label Propagation Perspective on Source-Free Domain
Adaptation [8.27771856472078]
我々は、ソースフリードメイン適応(SFDA)のための新しいアプローチであるChaos to Order(CtO)を提示する。
CtOは、セマンティックな信頼性を制約し、ターゲットのサブポピュレーション間でラベル情報を伝達する。
実証的な証拠は、CtOが3つの公開ベンチマークで芸術の状態を上回っていることを示している。
論文 参考訳(メタデータ) (2023-01-20T03:39:35Z) - Divide and Contrast: Source-free Domain Adaptation via Adaptive
Contrastive Learning [122.62311703151215]
Divide and Contrast (DaC) は、それぞれの制限を回避しつつ、両方の世界の善良な端を接続することを目的としている。
DaCは、ターゲットデータをソースライクなサンプルとターゲット固有なサンプルに分割する。
さらに、ソースライクなドメインと、メモリバンクベースの最大平均離散性(MMD)損失を用いて、ターゲット固有のサンプルとを整合させて、分散ミスマッチを低減する。
論文 参考訳(メタデータ) (2022-11-12T09:21:49Z) - Test-time Batch Statistics Calibration for Covariate Shift [66.7044675981449]
我々は,推論中に深層モデルを新しい環境に適応させることを提案する。
バッチ統計の校正に$alpha$-BNの一般的な定式化を提案する。
また、統合テスト時間適応フレームワークCoreを形成するための新しい損失関数も提示する。
論文 参考訳(メタデータ) (2021-10-06T08:45:03Z) - Generalized Focal Loss V2: Learning Reliable Localization Quality
Estimation for Dense Object Detection [78.11775981796367]
GFLV2 (ResNet-101) は14.6 FPSで46.2 APを達成し、以前の最先端ATSSベースライン (43.6 AP at 14.6 FPS) をCOCO tt test-devで絶対2.6 APで上回った。
コードはhttps://github.com/implus/GFocalV2.comから入手できる。
論文 参考訳(メタデータ) (2020-11-25T17:06:37Z) - Fine-Grained Visual Classification with Efficient End-to-end
Localization [49.9887676289364]
本稿では,エンド・ツー・エンドの設定において,分類ネットワークと融合可能な効率的なローカライゼーションモジュールを提案する。
我々は,CUB200-2011,Stanford Cars,FGVC-Aircraftの3つのベンチマークデータセット上で,新しいモデルを評価する。
論文 参考訳(メタデータ) (2020-05-11T14:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。