論文の概要: The Devil is in Classification: A Simple Framework for Long-tail Object
Detection and Instance Segmentation
- arxiv url: http://arxiv.org/abs/2007.11978v5
- Date: Tue, 3 Nov 2020 04:11:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 12:38:17.243013
- Title: The Devil is in Classification: A Simple Framework for Long-tail Object
Detection and Instance Segmentation
- Title(参考訳): The Devil is in Classification: a Simple Framework for Long-tail Object Detection and Instance Segmentation
- Authors: Tao Wang, Yu Li, Bingyi Kang, Junnan Li, Junhao Liew, Sheng Tang,
Steven Hoi, Jiashi Feng
- Abstract要約: 本稿では,最新のロングテールLVISデータセットを用いて,最先端の2段階のインスタンスセグメンテーションモデルMask R-CNNの性能低下について検討する。
主な原因は、オブジェクト提案の不正確な分類である。
そこで本研究では,2段階のクラスバランスサンプリング手法により,分類ヘッドバイアスをより効果的に緩和する,簡単な校正フレームワークを提案する。
- 参考スコア(独自算出の注目度): 93.17367076148348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing object instance detection and segmentation models only work
well on fairly balanced benchmarks where per-category training sample numbers
are comparable, such as COCO. They tend to suffer performance drop on realistic
datasets that are usually long-tailed. This work aims to study and address such
open challenges. Specifically, we systematically investigate performance drop
of the state-of-the-art two-stage instance segmentation model Mask R-CNN on the
recent long-tail LVIS dataset, and unveil that a major cause is the inaccurate
classification of object proposals. Based on such an observation, we first
consider various techniques for improving long-tail classification performance
which indeed enhance instance segmentation results. We then propose a simple
calibration framework to more effectively alleviate classification head bias
with a bi-level class balanced sampling approach. Without bells and whistles,
it significantly boosts the performance of instance segmentation for tail
classes on the recent LVIS dataset and our sampled COCO-LT dataset. Our
analysis provides useful insights for solving long-tail instance detection and
segmentation problems, and the straightforward \emph{SimCal} method can serve
as a simple but strong baseline. With the method we have won the 2019 LVIS
challenge. Codes and models are available at https://github.com/twangnh/SimCal.
- Abstract(参考訳): 既存のオブジェクトインスタンスの検出とセグメンテーションモデルは、COCOのようなカテゴリごとのトレーニングサンプル数が同等であるかなりバランスのとれたベンチマークでのみうまく機能する。
彼らは通常ロングテールの現実的なデータセットのパフォーマンス低下に苦しむ傾向がある。
この研究は、そのようなオープンな課題を研究、解決することを目的としている。
具体的には,最近のロングテールLVISデータセットにおいて,最先端の2段階インスタンスセグメンテーションモデルMask R-CNNの性能低下を系統的に検討し,オブジェクト提案の不正確な分類が主な原因であることを明らかにした。
このような観察に基づいて,まず,インスタンス分割結果が実際に向上するロングテール分類性能を改善するための様々な手法を検討する。
次に,2レベルクラスの平衡サンプリング手法により,分類ヘッドバイアスをより効果的に緩和する簡単な校正フレームワークを提案する。
ベルやホイッスルがなければ、最近のLVISデータセットとサンプルCOCO-LTデータセットのテールクラスのインスタンスセグメンテーションのパフォーマンスが大幅に向上する。
本分析は,ロングテールインスタンス検出とセグメンテーション問題を解決するための有用な知見を提供するとともに,簡単な \emph{simcal} メソッドは単純だが強固なベースラインとして機能する。
この方法で、2019年のLVISチャレンジで優勝しました。
コードとモデルはhttps://github.com/twangnh/simcalで入手できる。
関連論文リスト
- On Model Calibration for Long-Tailed Object Detection and Instance
Segmentation [56.82077636126353]
NorCal, Normalized for long-tailed object detection and instance segmentation。
バックグラウンドクラスを個別に扱い、各提案のクラスに対してスコアを正規化することは、優れたパフォーマンスを達成するための鍵であることを示す。
論文 参考訳(メタデータ) (2021-07-05T17:57:20Z) - Large-scale Unsupervised Semantic Segmentation [163.3568726730319]
本稿では, 大規模無教師付きセマンティックセマンティックセグメンテーション (LUSS) の新たな課題を提案する。
ImageNetデータセットに基づいて、120万のトレーニング画像と40万の高品質なセマンティックセグメンテーションアノテーションを用いた画像Net-Sデータセットを提案する。
論文 参考訳(メタデータ) (2021-06-06T15:02:11Z) - The Little W-Net That Could: State-of-the-Art Retinal Vessel
Segmentation with Minimalistic Models [19.089445797922316]
数桁のパラメータが桁違いに少ない標準U-Netのミニマリストバージョンが、現在のベストプラクティスの性能を近似していることを示す。
また,W-Netと呼ばれる単純な拡張も提案する。
また、Artery/Veinセグメンテーション問題にもアプローチを試行し、その結果を最先端技術に整合させる。
論文 参考訳(メタデータ) (2020-09-03T19:59:51Z) - Overcoming Classifier Imbalance for Long-tail Object Detection with
Balanced Group Softmax [88.11979569564427]
本報告では, 長期分布前における最先端モデルの過小評価に関する最初の体系的解析を行う。
本稿では,グループワイドトレーニングを通じて検出フレームワーク内の分類器のバランスをとるための,新しいバランス付きグループソフトマックス(BAGS)モジュールを提案する。
非常に最近の長尾大語彙オブジェクト認識ベンチマークLVISの大規模な実験により,提案したBAGSは検出器の性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2020-06-18T10:24:26Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z) - Learning Fast and Robust Target Models for Video Object Segmentation [83.3382606349118]
ビデオオブジェクトセグメンテーション(VOS)は、ターゲットオブジェクトを定義する初期マスクがテスト時にのみ与えられるため、非常に難しい問題である。
それまでのほとんどの場合、第1フレーム上のファイン・チューン・セグメンテーション・ネットワークにアプローチし、非現実的なフレームレートとオーバーフィッティングのリスクをもたらす。
本稿では,2つのネットワークコンポーネントからなる新しいVOSアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-27T21:58:06Z) - Reinforced active learning for image segmentation [34.096237671643145]
深部強化学習(RL)に基づく意味的セグメンテーションのための新しいアクティブラーニング戦略を提案する。
エージェントは、ラベルなしデータのプールからラベル付けされる小さな情報領域(画像全体とは対照的に)のサブセットを選択するポリシーを学ぶ。
本手法では, 意味的セグメンテーション問題の大規模性質に適応して, 能動的学習のための深部Q-network (DQN) の定式化を新たに提案する。
論文 参考訳(メタデータ) (2020-02-16T14:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。