論文の概要: Image-Level or Object-Level? A Tale of Two Resampling Strategies for
Long-Tailed Detection
- arxiv url: http://arxiv.org/abs/2104.05702v1
- Date: Mon, 12 Apr 2021 17:58:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 14:30:26.128549
- Title: Image-Level or Object-Level? A Tale of Two Resampling Strategies for
Long-Tailed Detection
- Title(参考訳): イメージレベルかオブジェクトレベルか?
ロングテール検出のための2つの再サンプリング戦略の物語
- Authors: Nadine Chang, Zhiding Yu, Yu-Xiong Wang, Anima Anandkumar, Sanja
Fidler, Jose M. Alvarez
- Abstract要約: 複数のクラスが1つの画像に存在する可能性があるため,ロングテール検出は分類と異なる。
動的でエピソードなメモリバンクに基づくオブジェクト中心のメモリリプレイ戦略を導入する。
本手法は、LVIS v0.5における最先端の長尾検出およびセグメンテーション法を様々なバックボーンにまたがる。
- 参考スコア(独自算出の注目度): 114.00301664929911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training on datasets with long-tailed distributions has been challenging for
major recognition tasks such as classification and detection. To deal with this
challenge, image resampling is typically introduced as a simple but effective
approach. However, we observe that long-tailed detection differs from
classification since multiple classes may be present in one image. As a result,
image resampling alone is not enough to yield a sufficiently balanced
distribution at the object level. We address object-level resampling by
introducing an object-centric memory replay strategy based on dynamic, episodic
memory banks. Our proposed strategy has two benefits: 1) convenient
object-level resampling without significant extra computation, and 2) implicit
feature-level augmentation from model updates. We show that image-level and
object-level resamplings are both important, and thus unify them with a joint
resampling strategy (RIO). Our method outperforms state-of-the-art long-tailed
detection and segmentation methods on LVIS v0.5 across various backbones.
- Abstract(参考訳): 長い尾の分布を持つデータセットのトレーニングは、分類や検出といった主要な認識タスクでは困難である。
この課題に対処するため、イメージリサンプリングは通常、単純だが効果的なアプローチとして導入される。
しかし、1つの画像に複数のクラスが存在する可能性があるため、長い尾検出は分類と異なる。
その結果、画像再サンプリングだけでは、オブジェクトレベルで十分なバランスの取れた分布が得られるには不十分である。
我々は,動的エピソディックメモリバンクに基づくオブジェクト中心メモリリプレイ戦略を導入することで,オブジェクトレベルのリサンプリングに対処する。
提案手法には、2つの利点がある: 1) 重要な余分な計算を伴わない便利なオブジェクトレベルの再サンプリング、2) モデル更新による暗黙的な機能レベルの拡張。
画像レベルのリサンプリングとオブジェクトレベルのリサンプリングはどちらも重要であり,共同リサンプリング戦略(RIO)と統合可能であることを示す。
提案手法は,LVIS v0.5の様々なバックボーンにおける最先端のロングテール検出法とセグメンテーション法より優れている。
関連論文リスト
- Learning from Rich Semantics and Coarse Locations for Long-tailed Object
Detection [157.18560601328534]
RichSemは、正確なバウンディングボックスを必要とせずに、粗い場所からリッチなセマンティクスを学ぶための堅牢な方法である。
我々はこれらのソフトセマンティクスを学習し、長い尾を持つ物体検出のための特徴表現を強化するために、セマンティクス分岐を検出器に追加する。
本手法は,複雑なトレーニングやテスト手順を必要とせず,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-10-18T17:59:41Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - A Contrastive Distillation Approach for Incremental Semantic
Segmentation in Aerial Images [15.75291664088815]
現在のディープニューラルアーキテクチャに関する大きな問題は、破滅的な忘れこととして知られている。
我々は、任意の入力を拡張バージョンと比較する、対照的な正則化を提案する。
私たちは、Potsdamデータセットにおけるソリューションの有効性を示し、各テストにおけるインクリメンタルベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-12-07T16:44:45Z) - Contrastive Object-level Pre-training with Spatial Noise Curriculum
Learning [12.697842097171119]
本稿では,生成した領域を適応的に拡張するカリキュラム学習機構を提案する。
実験の結果,マルチオブジェクトシーンイメージデータセットの事前学習において,MoCo v2のベースラインに対するアプローチは,複数のオブジェクトレベルタスクに対して大きなマージンで改善されていることがわかった。
論文 参考訳(メタデータ) (2021-11-26T18:29:57Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - Rectifying the Shortcut Learning of Background: Shared Object
Concentration for Few-Shot Image Recognition [101.59989523028264]
Few-Shot画像分類は、大規模なデータセットから学んだ事前学習された知識を利用して、一連の下流分類タスクに取り組むことを目的としている。
本研究では,Few-Shot LearningフレームワークであるCOSOCを提案する。
論文 参考訳(メタデータ) (2021-07-16T07:46:41Z) - Deep Active Learning for Joint Classification & Segmentation with Weak
Annotator [22.271760669551817]
クラスアクティベーションマップ(CAM)のようなCNNの可視化と解釈手法は、一般的に、クラス予測に関連する画像領域を強調するために使用される。
本稿では,画素レベルのアノテーションを段階的に統合する能動的学習フレームワークを提案する。
提案手法は, ランダムなサンプル選択を用いることで, 最先端のCAMやAL手法よりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2020-10-10T03:25:54Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。