論文の概要: Learning from Rich Semantics and Coarse Locations for Long-tailed Object
Detection
- arxiv url: http://arxiv.org/abs/2310.12152v1
- Date: Wed, 18 Oct 2023 17:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 15:28:32.442393
- Title: Learning from Rich Semantics and Coarse Locations for Long-tailed Object
Detection
- Title(参考訳): 長尾物体検出のためのリッチセマンティクスと粗い位置からの学習
- Authors: Lingchen Meng, Xiyang Dai, Jianwei Yang, Dongdong Chen, Yinpeng Chen,
Mengchen Liu, Yi-Ling Chen, Zuxuan Wu, Lu Yuan, Yu-Gang Jiang
- Abstract要約: RichSemは、正確なバウンディングボックスを必要とせずに、粗い場所からリッチなセマンティクスを学ぶための堅牢な方法である。
我々はこれらのソフトセマンティクスを学習し、長い尾を持つ物体検出のための特徴表現を強化するために、セマンティクス分岐を検出器に追加する。
本手法は,複雑なトレーニングやテスト手順を必要とせず,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 157.18560601328534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-tailed object detection (LTOD) aims to handle the extreme data imbalance
in real-world datasets, where many tail classes have scarce instances. One
popular strategy is to explore extra data with image-level labels, yet it
produces limited results due to (1) semantic ambiguity -- an image-level label
only captures a salient part of the image, ignoring the remaining rich
semantics within the image; and (2) location sensitivity -- the label highly
depends on the locations and crops of the original image, which may change
after data transformations like random cropping. To remedy this, we propose
RichSem, a simple but effective method, which is robust to learn rich semantics
from coarse locations without the need of accurate bounding boxes. RichSem
leverages rich semantics from images, which are then served as additional soft
supervision for training detectors. Specifically, we add a semantic branch to
our detector to learn these soft semantics and enhance feature representations
for long-tailed object detection. The semantic branch is only used for training
and is removed during inference. RichSem achieves consistent improvements on
both overall and rare-category of LVIS under different backbones and detectors.
Our method achieves state-of-the-art performance without requiring complex
training and testing procedures. Moreover, we show the effectiveness of our
method on other long-tailed datasets with additional experiments. Code is
available at \url{https://github.com/MengLcool/RichSem}.
- Abstract(参考訳): Long-tailed Object Detection (LTOD)は、多くのテールクラスがインスタンスが少ない実世界のデータセットにおける極端なデータ不均衡を処理することを目的としている。
1つの一般的な戦略は、画像レベルのラベルで余分なデータを探索することであるが、(1)意味的曖昧さ(画像レベルのラベルは画像の健全な部分のみをキャプチャし、画像内の残りのリッチなセマンティクスを無視している)、(2)位置感受性(位置感受性) -- ラベルは元のイメージの位置と作物に大きく依存する。
そこで我々はRichSemを提案する。これはシンプルで効果的な手法で、正確な境界ボックスを必要とせずに、粗い場所からリッチなセマンティクスを学習できる。
richsemはイメージからの豊富なセマンティクスを活用し、その後、トレーニングディテクターの追加のソフト監視として機能する。
具体的には、これらのソフトセマンティクスを学習し、ロングテールオブジェクト検出のための特徴表現を強化するために、検出器にセマンティクスブランチを追加します。
semanticブランチはトレーニングにのみ使用され、推論中に削除される。
RichSemは、異なるバックボーンと検出器の下でLVISの全体的なカテゴリと希少カテゴリの両方で一貫した改善を実現している。
本手法は,複雑なトレーニングやテスト手順を必要とせず,最先端のパフォーマンスを実現する。
さらに,本手法を他の長期データセットに適用し,さらなる実験を行った。
コードは \url{https://github.com/menglcool/richsem} で入手できる。
関連論文リスト
- Task Specific Pretraining with Noisy Labels for Remote Sensing Image Segmentation [18.598405597933752]
自己監督(Self-supervision)は、人造地理空間アノテーションの正確な量を減らすためのリモートセンシングツールを提供する。
本研究では,モデル事前学習のためのノイズの多いセマンティックセグメンテーションマップを提案する。
2つのデータセットから,ノイズラベルを用いたタスク固有教師付き事前学習の有効性が示唆された。
論文 参考訳(メタデータ) (2024-02-25T18:01:42Z) - Learning Semantic Segmentation with Query Points Supervision on Aerial Images [57.09251327650334]
セマンティックセグメンテーションアルゴリズムを学習するための弱教師付き学習アルゴリズムを提案する。
提案手法は正確なセマンティックセグメンテーションを行い,手作業のアノテーションに要するコストと時間を大幅に削減することで効率を向上する。
論文 参考訳(メタデータ) (2023-09-11T14:32:04Z) - A Contrastive Distillation Approach for Incremental Semantic
Segmentation in Aerial Images [15.75291664088815]
現在のディープニューラルアーキテクチャに関する大きな問題は、破滅的な忘れこととして知られている。
我々は、任意の入力を拡張バージョンと比較する、対照的な正則化を提案する。
私たちは、Potsdamデータセットにおけるソリューションの有効性を示し、各テストにおけるインクリメンタルベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-12-07T16:44:45Z) - Region-level Active Learning for Cluttered Scenes [60.93811392293329]
本稿では,従来の画像レベルのアプローチとオブジェクトレベルのアプローチを一般化した領域レベルのアプローチに仮定する新たな戦略を提案する。
その結果,本手法はラベル付けの労力を大幅に削減し,クラス不均衡や散らかったシーンを生かしたリアルなデータに対する希少なオブジェクト検索を改善することが示唆された。
論文 参考訳(メタデータ) (2021-08-20T14:02:38Z) - AugNet: End-to-End Unsupervised Visual Representation Learning with
Image Augmentation [3.6790362352712873]
我々は、未ラベル画像の集合から画像特徴を学習するための新しいディープラーニングトレーニングパラダイムであるAugNetを提案する。
実験により,低次元空間における画像の表現が可能であることを実証した。
多くのディープラーニングベースの画像検索アルゴリズムとは異なり、我々のアプローチは外部アノテーション付きデータセットへのアクセスを必要としない。
論文 参考訳(メタデータ) (2021-06-11T09:02:30Z) - Image-Level or Object-Level? A Tale of Two Resampling Strategies for
Long-Tailed Detection [114.00301664929911]
複数のクラスが1つの画像に存在する可能性があるため,ロングテール検出は分類と異なる。
動的でエピソードなメモリバンクに基づくオブジェクト中心のメモリリプレイ戦略を導入する。
本手法は、LVIS v0.5における最先端の長尾検出およびセグメンテーション法を様々なバックボーンにまたがる。
論文 参考訳(メタデータ) (2021-04-12T17:58:30Z) - Grafit: Learning fine-grained image representations with coarse labels [114.17782143848315]
本稿では,学習ラベルの提供するものよりも細かな表現を学習する問題に対処する。
粗いラベルと下層の細粒度潜在空間を併用することにより、カテゴリレベルの検索手法の精度を大幅に向上させる。
論文 参考訳(メタデータ) (2020-11-25T19:06:26Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z) - Continual Local Replacement for Few-shot Learning [13.956960291580938]
少数ショット学習の目標は,1つないし少数のトレーニングデータに基づいて,新しいクラスを認識可能なモデルを学習することにある。
1)新しいクラスの優れた特徴表現が欠けていること、(2)ラベル付きデータの一部が真のデータ分布を正確に表現できないこと、である。
データ不足問題に対処するために,新たな局所的置換戦略を提案する。
論文 参考訳(メタデータ) (2020-01-23T04:26:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。