論文の概要: Improving Long-Tailed Object Detection with Balanced Group Softmax and Metric Learning
- arxiv url: http://arxiv.org/abs/2511.16619v1
- Date: Tue, 02 Sep 2025 00:38:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.209131
- Title: Improving Long-Tailed Object Detection with Balanced Group Softmax and Metric Learning
- Title(参考訳): バランス付きグループソフトマックスとメトリック学習による長距離物体検出の改善
- Authors: Satyam Gaba,
- Abstract要約: LVISv1データセットを用いた長期2次元物体検出の課題に対処する。
我々は、より高速なR-CNNアーキテクチャを2段階採用し、Balanced Group Softmaxフレームワークの拡張を提案する。
提案手法は,従来の24.0%のベンチマークを上回り,平均平均精度(mAP)が24.5%の新たな最先端性能を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object detection has been widely explored for class-balanced datasets such as COCO. However, real-world scenarios introduce the challenge of long-tailed distributions, where numerous categories contain only a few instances. This inherent class imbalance biases detection models towards the more frequent classes, degrading performance on rare categories. In this paper, we tackle the problem of long-tailed 2D object detection using the LVISv1 dataset, which consists of 1,203 categories and 164,000 images. We employ a two-stage Faster R-CNN architecture and propose enhancements to the Balanced Group Softmax (BAGS) framework to mitigate class imbalance. Our approach achieves a new state-of-the-art performance with a mean Average Precision (mAP) of 24.5%, surpassing the previous benchmark of 24.0%. Additionally, we hypothesize that tail class features may form smaller, denser clusters within the feature space of head classes, making classification challenging for regression-based classifiers. To address this issue, we explore metric learning to produce feature embeddings that are both well-separated across classes and tightly clustered within each class. For inference, we utilize a k-Nearest Neighbors (k-NN) approach to improve classification performance, particularly for rare classes. Our results demonstrate the effectiveness of these methods in advancing long-tailed object detection.
- Abstract(参考訳): オブジェクト検出はCOCOなどのクラスバランスデータセットに対して広く研究されている。
しかし、現実のシナリオでは、多くのカテゴリが少数のインスタンスしか含まない、長い尾の分布の課題が引き起こされる。
この固有のクラス不均衡は、検出モデルをより頻繁なクラスに偏り、稀なカテゴリのパフォーマンスを低下させる。
本稿では,LVISv1データセットを用いて,1,203のカテゴリと164,000の画像からなる2次元物体の長期検出問題に取り組む。
本稿では,2段階のFaster R-CNNアーキテクチャを採用し,クラス不均衡を軽減するため,Balanced Group Softmax(BAGS)フレームワークの拡張を提案する。
提案手法は,従来の24.0%のベンチマークを上回り,平均平均精度(mAP)が24.5%の新たな最先端性能を実現する。
さらに、テールクラスの特徴は、ヘッドクラスの特徴空間内のより小さく、より密度の高いクラスタを形成し、回帰型分類器の分類が困難である、という仮説を立てる。
この問題に対処するために,各クラス間で適切に分離され,各クラス内で密集された機能埋め込みを生成するためのメトリクス学習について検討する。
推論にはk-Nearest Neighbors (k-NN) アプローチを用いて分類性能を向上する。
本研究は,長期物体検出におけるこれらの手法の有効性を実証するものである。
関連論文リスト
- Learning from Neighbors: Category Extrapolation for Long-Tail Learning [62.30734737735273]
より粒度の細かいデータセットは、データの不均衡の影響を受けにくい傾向があります。
既存のクラスと視覚的に類似したオープンセット補助クラスを導入し、頭と尾の両方の表現学習を強化することを目的とした。
補助授業の圧倒的な存在がトレーニングを混乱させるのを防ぐために,近隣のサイレンシング障害を導入する。
論文 参考訳(メタデータ) (2024-10-21T13:06:21Z) - Scaling Up Deep Clustering Methods Beyond ImageNet-1K [0.9437165725355702]
本研究では,大規模ベンチマークにおける機能ベースのディープクラスタリング手法の性能について検討する。
我々の実験分析によると、機能ベースの$k$-meansはバランスの取れたデータセットで不公平に評価されることが多い。
ディープクラスタリングメソッドは、ほとんどの大規模ベンチマークで$k$-meansを上回っている。
論文 参考訳(メタデータ) (2024-06-03T11:13:27Z) - DiGeo: Discriminative Geometry-Aware Learning for Generalized Few-Shot
Object Detection [39.937724871284665]
汎用的な少ショットオブジェクト検出は、豊富なアノテーションと限られたトレーニングデータを持つ新しいクラスで、両方のベースクラス上で正確な検出を実現することを目的としている。
既存のアプローチは、ベースクラスのパフォーマンスを犠牲にして、数ショットの一般化を促進する。
クラス間分離とクラス内コンパクト性の幾何学的特徴を学習するための新しいトレーニングフレームワークDiGeoを提案する。
論文 参考訳(メタデータ) (2023-03-16T22:37:09Z) - Ranking hierarchical multi-label classification results with mLPRs [4.869182515096001]
与えられたクラス階層に固執しながら、参加者の少ない第2段階の質問に焦点を合わせます。
CATCHと呼ばれる新しい目的関数を導入し、適切な分類性能を確保する。
提案手法は,合成データセットと2つの実データセットを用いて評価した。
論文 参考訳(メタデータ) (2022-05-16T17:43:35Z) - Adaptive Class Suppression Loss for Long-Tail Object Detection [49.7273558444966]
アダプティブクラス抑圧損失(ACSL:Adaptive Class Suppression Loss)を考案し,尾部カテゴリの検出性能を改善する。
当社のACSLはResNet50-FPNで5.18%と5.2%の改善を実現し,新たな最先端技術を実現した。
論文 参考訳(メタデータ) (2021-04-02T05:12:31Z) - Improving Calibration for Long-Tailed Recognition [68.32848696795519]
このようなシナリオにおけるキャリブレーションとパフォーマンスを改善する2つの方法を提案します。
異なるサンプルによるデータセットバイアスに対して,シフトバッチ正規化を提案する。
提案手法は,複数の長尾認識ベンチマークデータセットに新しいレコードをセットする。
論文 参考訳(メタデータ) (2021-04-01T13:55:21Z) - The Devil is in Classification: A Simple Framework for Long-tail Object
Detection and Instance Segmentation [93.17367076148348]
本稿では,最新のロングテールLVISデータセットを用いて,最先端の2段階のインスタンスセグメンテーションモデルMask R-CNNの性能低下について検討する。
主な原因は、オブジェクト提案の不正確な分類である。
そこで本研究では,2段階のクラスバランスサンプリング手法により,分類ヘッドバイアスをより効果的に緩和する,簡単な校正フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T12:49:07Z) - Overcoming Classifier Imbalance for Long-tail Object Detection with
Balanced Group Softmax [88.11979569564427]
本報告では, 長期分布前における最先端モデルの過小評価に関する最初の体系的解析を行う。
本稿では,グループワイドトレーニングを通じて検出フレームワーク内の分類器のバランスをとるための,新しいバランス付きグループソフトマックス(BAGS)モジュールを提案する。
非常に最近の長尾大語彙オブジェクト認識ベンチマークLVISの大規模な実験により,提案したBAGSは検出器の性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2020-06-18T10:24:26Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。