論文の概要: Self-Supervised Learning for Real-World Object Detection: a Survey
- arxiv url: http://arxiv.org/abs/2410.07442v2
- Date: Fri, 11 Oct 2024 08:46:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 17:06:37.651867
- Title: Self-Supervised Learning for Real-World Object Detection: a Survey
- Title(参考訳): 実世界の物体検出のための自己監督型学習:サーベイ
- Authors: Alina Ciocarlan, Sidonie Lefebvre, Sylvie Le Hégarat-Mascle, Arnaud Woiselle,
- Abstract要約: 自己監視学習(SSL)はコンピュータビジョンにおいて有望なアプローチとして登場した。
SSLメソッドは、インスタンス識別とMasked Image Modeling(MIM)の2つの主要なカテゴリに分類される。
- 参考スコア(独自算出の注目度): 1.2224547302812558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-Supervised Learning (SSL) has emerged as a promising approach in computer vision, enabling networks to learn meaningful representations from large unlabeled datasets. SSL methods fall into two main categories: instance discrimination and Masked Image Modeling (MIM). While instance discrimination is fundamental to SSL, it was originally designed for classification and may be less effective for object detection, particularly for small objects. In this survey, we focus on SSL methods specifically tailored for real-world object detection, with an emphasis on detecting small objects in complex environments. Unlike previous surveys, we offer a detailed comparison of SSL strategies, including object-level instance discrimination and MIM methods, and assess their effectiveness for small object detection using both CNN and ViT-based architectures. Specifically, our benchmark is performed on the widely-used COCO dataset, as well as on a specialized real-world dataset focused on vehicle detection in infrared remote sensing imagery. We also assess the impact of pre-training on custom domain-specific datasets, highlighting how certain SSL strategies are better suited for handling uncurated data. Our findings highlight that instance discrimination methods perform well with CNN-based encoders, while MIM methods are better suited for ViT-based architectures and custom dataset pre-training. This survey provides a practical guide for selecting optimal SSL strategies, taking into account factors such as backbone architecture, object size, and custom pre-training requirements. Ultimately, we show that choosing an appropriate SSL pre-training strategy, along with a suitable encoder, significantly enhances performance in real-world object detection, particularly for small object detection in frugal settings.
- Abstract(参考訳): 自己監視学習(SSL)はコンピュータビジョンにおいて有望なアプローチとして登場し、大規模なラベルなしデータセットから意味のある表現をネットワークで学習することを可能にする。
SSLメソッドは、インスタンス識別とMasked Image Modeling(MIM)の2つの主要なカテゴリに分類される。
インスタンスの識別はSSLの基本であるが、元々は分類のために設計されており、特に小さなオブジェクトに対して、オブジェクト検出にはあまり効果がない可能性がある。
本研究では,実世界のオブジェクト検出に適したSSL手法に着目し,複雑な環境下での小さなオブジェクトの検出に重点を置いている。
従来の調査と異なり、オブジェクトレベルのインスタンス識別とMIMメソッドを含むSSL戦略を詳細に比較し、CNNとViTベースのアーキテクチャの両方を用いた小さなオブジェクト検出の有効性を評価する。
具体的には、我々のベンチマークは、広範に使用されているCOCOデータセットと、赤外線リモートセンシング画像における車両検出に焦点を当てた特殊な現実世界データセットに基づいて実施されている。
また、カスタムドメイン固有のデータセットに対する事前トレーニングの影響を評価し、未処理のデータを扱うのにSSL戦略がいかに適しているかを強調します。
分析の結果,インスタンス識別手法はCNNベースのエンコーダとよく似ており,MIM法はViTベースのアーキテクチャやカスタムデータセットの事前学習に適していることがわかった。
この調査は、バックボーンアーキテクチャ、オブジェクトサイズ、カスタム事前トレーニング要件などの要因を考慮して、最適なSSL戦略を選択するための実用的なガイドを提供する。
最終的に、適切なSSL事前トレーニング戦略を選択することは、適切なエンコーダとともに、現実世界のオブジェクト検出におけるパフォーマンスを著しく向上させることを示す。
関連論文リスト
- A Closer Look at Benchmarking Self-Supervised Pre-training with Image Classification [51.35500308126506]
自己教師付き学習(SSL)は、データ自体が監視を提供する機械学習アプローチであり、外部ラベルの必要性を排除している。
SSLの分類に基づく評価プロトコルがどのように相関し、異なるデータセットのダウンストリーム性能を予測するかを検討する。
論文 参考訳(メタデータ) (2024-07-16T23:17:36Z) - Self-supervised visual learning in the low-data regime: a comparative evaluation [40.27083924454058]
自己監視学習(SSL)は、現代のディープニューラルネットワーク(DNN)のための堅牢なトレーニング手法である
この研究は、現代のビジュアルSSLメソッドの分類を導入し、アプローチの主要なカテゴリに関する詳細な説明と洞察を添えた。
ドメイン固有のダウンストリームタスクでは、ドメイン内のローデータSSLプリトレーニングが大規模な事前トレーニングの一般的なアプローチより優れています。
論文 参考訳(メタデータ) (2024-04-26T07:23:14Z) - Improved Region Proposal Network for Enhanced Few-Shot Object Detection [23.871860648919593]
Few-shot Object Detection (FSOD) メソッドは、古典的なオブジェクト検出手法の限界に対する解決策として登場した。
FSODトレーニング段階において,未ラベルの新規物体を正のサンプルとして検出し,利用するための半教師付きアルゴリズムを開発した。
地域提案ネットワーク(RPN)の階層的サンプリング戦略の改善により,大規模オブジェクトに対するオブジェクト検出モデルの認識が向上する。
論文 参考訳(メタデータ) (2023-08-15T02:35:59Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - In-Domain Self-Supervised Learning Improves Remote Sensing Image Scene
Classification [5.323049242720532]
リモートセンシング画像分類のための有望なアプローチとして,自己教師付き学習が登場している。
そこで本研究では,14の下流データセットにまたがる自己教師型事前学習戦略について検討し,その効果を評価する。
論文 参考訳(メタデータ) (2023-07-04T10:57:52Z) - De-coupling and De-positioning Dense Self-supervised Learning [65.56679416475943]
Dense Self-Supervised Learning (SSL)メソッドは、複数のオブジェクトでイメージを処理する際に、画像レベルの特徴表現を使用する際の制限に対処する。
本研究は, 層深度やゼロパディングに伴う受容野の増大によって生じる, 結合と位置バイアスに悩まされていることを示す。
我々はCOCOにおける本手法の利点と、オブジェクト分類、セマンティックセグメンテーション、オブジェクト検出のための新しい挑戦的ベンチマークであるOpenImage-MINIについて示す。
論文 参考訳(メタデータ) (2023-03-29T18:07:25Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - Discovery-and-Selection: Towards Optimal Multiple Instance Learning for
Weakly Supervised Object Detection [86.86602297364826]
複数インスタンス学習(DS-MIL)と融合した発見・選択手法を提案する。
我々の提案するDS-MILアプローチは,最先端の性能を報告しながら,ベースラインを一貫して改善することができる。
論文 参考訳(メタデータ) (2021-10-18T07:06:57Z) - Trash to Treasure: Harvesting OOD Data with Cross-Modal Matching for
Open-Set Semi-Supervised Learning [101.28281124670647]
オープンセット半教師付き学習(Open-set SSL)では、ラベルなしデータにOOD(Out-of-distribution)サンプルを含む、難しいが実用的なシナリオを調査する。
我々は、OODデータの存在を効果的に活用し、特徴学習を増強する新しいトレーニングメカニズムを提案する。
我々のアプローチは、オープンセットSSLのパフォーマンスを大幅に向上させ、最先端技術よりも大きなマージンで性能を向上します。
論文 参考訳(メタデータ) (2021-08-12T09:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。