論文の概要: SimLTD: Simple Supervised and Semi-Supervised Long-Tailed Object Detection
- arxiv url: http://arxiv.org/abs/2412.20047v1
- Date: Sat, 28 Dec 2024 06:29:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:02:36.188010
- Title: SimLTD: Simple Supervised and Semi-Supervised Long-Tailed Object Detection
- Title(参考訳): SimLTD: 単純なスーパービジョンと半スーパービジョンのロングプレートオブジェクト検出
- Authors: Phi Vu Tran,
- Abstract要約: 本稿では、オブジェクトクラスが自然に長い尾の分布に従うような環境でのオブジェクト検出の課題に焦点を当てる。
既存のロングテール検出アプローチでは、外部のImageNetラベルを使用して、ローショットのトレーニングインスタンスを拡張している。
我々は、人間のアノテーションの負担を伴わずに簡単に収集できる、任意のラベルのない画像を活用するための、より汎用的なアプローチを提案する。
- 参考スコア(独自算出の注目度): 4.3512163406552
- License:
- Abstract: Recent years have witnessed tremendous advances on modern visual recognition systems. Despite such progress, many vision models still struggle with the open problem of learning from few exemplars. This paper focuses on the task of object detection in the setting where object classes follow a natural long-tailed distribution. Existing approaches to long-tailed detection resort to external ImageNet labels to augment the low-shot training instances. However, such dependency on a large labeled database is impractical and has limited utility in realistic scenarios. We propose a more versatile approach to leverage optional unlabeled images, which are easy to collect without the burden of human annotations. Our SimLTD framework is straightforward and intuitive, and consists of three simple steps: (1) pre-training on abundant head classes; (2) transfer learning on scarce tail classes; and (3) fine-tuning on a sampled set of both head and tail classes. Our approach can be viewed as an improved head-to-tail model transfer paradigm without the added complexities of meta-learning or knowledge distillation, as was required in past research. By harnessing supplementary unlabeled images, without extra image labels, SimLTD establishes new record results on the challenging LVIS v1 benchmark across both supervised and semi-supervised settings.
- Abstract(参考訳): 近年、現代の視覚認識システムに大きな進歩が見られた。
このような進歩にもかかわらず、多くのビジョンモデルは、少数の見習いから学ぶというオープンな問題に依然として苦戦している。
本稿では、オブジェクトクラスが自然に長い尾の分布に従うような環境でのオブジェクト検出の課題に焦点を当てる。
既存のロングテール検出アプローチでは、外部のImageNetラベルを使用して、ローショットのトレーニングインスタンスを拡張している。
しかし、大きなラベル付きデータベースへのそのような依存は非現実的であり、現実的なシナリオでは実用性に制限がある。
我々は、人間のアノテーションの負担を伴わずに簡単に収集できる、任意のラベルのない画像を活用するための、より汎用的なアプローチを提案する。
我々のSimLTDフレームワークは直感的かつ直感的であり,(1)豊富なヘッドクラスの事前学習,(2)少ないテールクラスの転送学習,(3)ヘッドクラスとテールクラスのサンプルセットの微調整という3つの単純なステップで構成されている。
提案手法は, メタラーニングや知識蒸留の複雑化を伴わずに, 改良されたヘッド・ツー・テールモデル転送パラダイムとみなすことができる。
追加のイメージラベルを使わずに、追加のラベル付きイメージを活用することで、SimLTDは、教師付き設定と半教師付き設定の両方で、挑戦的なLVIS v1ベンチマークに新しい記録結果を確立する。
関連論文リスト
- Improving Long-tailed Object Detection with Image-Level Supervision by
Multi-Task Collaborative Learning [18.496765732728164]
マルチタスク協調方式において,画像レベルの監視を活用して検出能力を向上する新しいフレームワークCLISを提案する。
CLISは、テールカテゴリーを10.1ポイント改善した31.1のAPを達成し、新しい最先端技術を確立した。
論文 参考訳(メタデータ) (2022-10-11T16:02:14Z) - UniVIP: A Unified Framework for Self-Supervised Visual Pre-training [50.87603616476038]
単一中心オブジェクトまたは非調和データセット上で,汎用的な視覚表現を学習するための,新しい自己教師型フレームワークを提案する。
大規模実験により、非高調波COCOで事前訓練されたUniVIPは、最先端の転送性能を実現することが示された。
また、ImageNetのような単一中心オブジェクトのデータセットを利用でき、線形探索において同じ事前学習エポックでBYOLを2.5%上回る。
論文 参考訳(メタデータ) (2022-03-14T10:04:04Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - A Simple Long-Tailed Recognition Baseline via Vision-Language Model [92.2866546058082]
視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。
視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩
我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
論文 参考訳(メタデータ) (2021-11-29T17:49:24Z) - Learning to Track Instances without Video Annotations [85.9865889886669]
本稿では,ラベル付き画像データセットとラベルなしビデオシーケンスのみを用いたインスタンス追跡ネットワークを学習する,新しい半教師付きフレームワークを提案する。
画像のみを訓練しても,学習した特徴表現は出現の変動にロバストであることが判明した。
さらに、このモジュールを単一ステージのインスタンスセグメンテーションとポーズ推定フレームワークに統合します。
論文 参考訳(メタデータ) (2021-04-01T06:47:41Z) - Train a One-Million-Way Instance Classifier for Unsupervised Visual
Representation Learning [45.510042484456854]
本稿では、パラメトリックなインスタンスレベルの計算を用いて、データセット内のすべての画像を識別するプリテキストタスクを備えた、単純な教師なし視覚表現学習法を提案する。
全体的なフレームワークは教師付き分類モデルのレプリカであり、セマンティッククラス(犬、鳥、船など)はインスタンスIDに置き換えられる。
数千のセマンティックラベルから数百万のインスタンスラベルへの分類タスクのスケールアップは、1)大規模ソフトマックス分類器、2)インスタンスサンプルの頻度の低い訪問による緩やかな収束、3)ノイズの多い大量の負のクラスなど、特定の課題をもたらす。
論文 参考訳(メタデータ) (2021-02-09T14:44:18Z) - Complementing Representation Deficiency in Few-shot Image
Classification: A Meta-Learning Approach [27.350615059290348]
本稿では,MCRNetを用いたメタラーニング手法を提案する。
特に、潜時空間を埋め込んで、潜時符号を余分な表現情報で再構成し、表現不足を補完する。
我々のエンドツーエンドフレームワークは、3つの標準的な数ショット学習データセット上の画像分類における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-21T13:25:54Z) - Overcoming Classifier Imbalance for Long-tail Object Detection with
Balanced Group Softmax [88.11979569564427]
本報告では, 長期分布前における最先端モデルの過小評価に関する最初の体系的解析を行う。
本稿では,グループワイドトレーニングを通じて検出フレームワーク内の分類器のバランスをとるための,新しいバランス付きグループソフトマックス(BAGS)モジュールを提案する。
非常に最近の長尾大語彙オブジェクト認識ベンチマークLVISの大規模な実験により,提案したBAGSは検出器の性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2020-06-18T10:24:26Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。