論文の概要: Coreset Sampling from Open-Set for Fine-Grained Self-Supervised Learning
- arxiv url: http://arxiv.org/abs/2303.11101v2
- Date: Fri, 24 Mar 2023 05:15:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 17:28:47.059067
- Title: Coreset Sampling from Open-Set for Fine-Grained Self-Supervised Learning
- Title(参考訳): 自己監督学習のためのオープンセットからのコアセットサンプリング
- Authors: Sungnyun Kim, Sangmin Bae, Se-Young Yun
- Abstract要約: 本稿では,大規模未ラベルのオープンセットが利用可能であるという前提の下で,オープンセットの自己改善型学習問題を新たに導入する。
問題設定では、オープンセットとターゲットデータセットの分布ミスマッチを考慮することが重要である。
実験により,SimCoreは表現学習性能を大幅に向上することを示した。
- 参考スコア(独自算出の注目度): 10.57079240576682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning in general domains has constantly been extended to
domain-specific tasks requiring the recognition of fine-grained
characteristics. However, real-world applications for fine-grained tasks suffer
from two challenges: a high reliance on expert knowledge for annotation and
necessity of a versatile model for various downstream tasks in a specific
domain (e.g., prediction of categories, bounding boxes, or pixel-wise
annotations). Fortunately, the recent self-supervised learning (SSL) is a
promising approach to pretrain a model without annotations, serving as an
effective initialization for any downstream tasks. Since SSL does not rely on
the presence of annotation, in general, it utilizes the large-scale unlabeled
dataset, referred to as an open-set. In this sense, we introduce a novel
Open-Set Self-Supervised Learning problem under the assumption that a
large-scale unlabeled open-set is available, as well as the fine-grained target
dataset, during a pretraining phase. In our problem setup, it is crucial to
consider the distribution mismatch between the open-set and target dataset.
Hence, we propose SimCore algorithm to sample a coreset, the subset of an
open-set that has a minimum distance to the target dataset in the latent space.
We demonstrate that SimCore significantly improves representation learning
performance through extensive experimental settings, including eleven
fine-grained datasets and seven open-sets in various downstream tasks.
- Abstract(参考訳): 一般領域におけるディープラーニングは、きめ細かい特徴の認識を必要とするドメイン固有のタスクに絶えず拡張されてきた。
しかし、細かなタスクに対する現実世界のアプリケーションは、2つの課題に直面している: アノテーションの専門知識に高い依存と、特定のドメインにおける様々な下流タスクの汎用モデルの必要性(例えば、カテゴリの予測、バウンディングボックス、ピクセル単位でのアノテーションなど)。
幸いなことに、最近の自己教師型学習(SSL)は、アノテーションなしでモデルを事前トレーニングするための有望なアプローチであり、下流タスクの効果的な初期化として役立ちます。
SSLはアノテーションの存在に依存しないので、一般に、オープンセットと呼ばれる大規模なラベルなしデータセットを使用する。
この意味では,事前学習段階において,大規模無ラベルオープンセットと細粒度目標データセットが利用可能であることを前提として,新しいオープンセット自己教師付き学習問題を導入する。
問題設定では、オープンセットとターゲットデータセットの分布ミスマッチを考慮することが重要である。
そこで我々はSimCoreアルゴリズムを用いて、潜在空間内のターゲットデータセットに最小距離を持つオープンセットのサブセットであるコアセットをサンプリングする。
また,SimCoreは,11個の細粒度データセットと7つのオープンセットを含む広範囲な実験的な設定により,表現学習性能を著しく向上することを示した。
関連論文リスト
- Semi-Supervised One-Shot Imitation Learning [83.94646047695412]
ワンショットのImitation Learningは、AIエージェントに1つのデモから新しいタスクを学ぶ能力を持たせることを目的としている。
我々は,学習エージェントにトラジェクトリの大規模なデータセットを提示する,半教師付きOSIL問題設定を導入する。
我々は,この半教師付きOSIL設定に適用可能なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-08-09T18:11:26Z) - Few-Shot Learning for Annotation-Efficient Nucleus Instance Segmentation [50.407071700154674]
少数ショット学習(FSL)の観点から、アノテーション効率の良い核インスタンスセグメンテーションを定式化することを提案する。
我々の研究は、計算病理学の隆盛とともに、多くの完全注釈付きデータセットが一般に公開されていることに動機づけられた。
いくつかの公開データセットに対する大規模な実験は、SGFSISが他のアノテーション効率のよい学習ベースラインより優れていることを示している。
論文 参考訳(メタデータ) (2024-02-26T03:49:18Z) - Knowledge Combination to Learn Rotated Detection Without Rotated
Annotation [53.439096583978504]
回転バウンディングボックスは、伸長したオブジェクトの出力あいまいさを劇的に減少させる。
この効果にもかかわらず、回転検出器は広く使われていない。
本稿では,モデルが正確な回転ボックスを予測できるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-05T03:07:36Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [103.6153593636399]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - Discrete Key-Value Bottleneck [95.61236311369821]
ディープニューラルネットワークは、データストリームがi.d.d.であり、ラベル付きデータが豊富である分類タスクでうまく機能する。
この課題に対処した強力なアプローチの1つは、手軽に利用可能なデータ量に対する大規模なエンコーダの事前トレーニングと、タスク固有のチューニングである。
しかし、新しいタスクを考えると、多くの重みを微調整する必要があるため、エンコーダの重みを更新することは困難であり、その結果、以前のタスクに関する情報を忘れてしまう。
この問題に対処するモデルアーキテクチャを提案し,個別かつ学習可能なキー値符号のペアを含む離散的ボトルネックの上に構築する。
論文 参考訳(メタデータ) (2022-07-22T17:52:30Z) - Continual Coarse-to-Fine Domain Adaptation in Semantic Segmentation [22.366638308792734]
ディープニューラルネットワークは通常、特定のタスクとデータ分散のために、単一のショットでトレーニングされる。
実際の環境では、タスクとアプリケーションドメインの両方が変更される可能性がある。
本稿では,ドメインシフトが存在する場合のセマンティックセグメンテーションアーキテクチャの粗大な学習という新たな課題を紹介する。
論文 参考訳(メタデータ) (2022-01-18T13:31:19Z) - Reconstruction guided Meta-learning for Few Shot Open Set Recognition [31.49168444631114]
ReFOCS (Reconstructing Exemplar-based Few-shot Open-set Classifier) を提案する。
新規な再構築型メタラーニング戦略であるReFOCSを用いてFSOSRを効率化する。
ReFOCSは複数の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-07-31T23:23:35Z) - Hyperspherical embedding for novel class classification [1.5952956981784217]
本稿では,正規化ソフトマックス損失下での潜在空間の表現に制約に基づくアプローチを提案する。
本研究では,メトリクス学習と正規化ソフトマックス損失の両方を用いて,異なるデータセット上の未知のクラスを分類するための提案手法を実験的に検証した。
この結果から,提案した戦略は,ペアワイズ学習を必要とせず,メトリック学習戦略よりも優れた分類結果を提供するため,より大規模なクラスで効率的に学習可能であることが示唆された。
論文 参考訳(メタデータ) (2021-02-05T15:42:13Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。