論文の概要: Coarse Is Better? A New Pipeline Towards Self-Supervised Learning with
Uncurated Images
- arxiv url: http://arxiv.org/abs/2306.04244v2
- Date: Thu, 8 Jun 2023 06:30:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 10:33:07.234628
- Title: Coarse Is Better? A New Pipeline Towards Self-Supervised Learning with
Uncurated Images
- Title(参考訳): 粗い方が良い?
未修正画像を用いた自己教師あり学習のための新しいパイプライン
- Authors: Ke Zhu, Yin-Yin He, Jianxin Wu
- Abstract要約: ほとんどの自己教師付き学習(SSL)メソッドは、オブジェクト中心の仮定が成立するキュレートデータセットで動作することが多い。
本稿では,まず粗い対象領域を見つけて,擬似的な対象中心の画像として抽出する,概念的に異なるパイプラインを提案する。
実験によると、パイプラインは、分類、検出、セグメンテーションタスクにおいて、既存のSSLメソッドよりも優れています。
- 参考スコア(独自算出の注目度): 32.26577845735846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most self-supervised learning (SSL) methods often work on curated datasets
where the object-centric assumption holds. This assumption breaks down in
uncurated images. Existing scene image SSL methods try to find the two views
from original scene images that are well matched or dense, which is both
complex and computationally heavy. This paper proposes a conceptually different
pipeline: first find regions that are coarse objects (with adequate
objectness), crop them out as pseudo object-centric images, then any SSL method
can be directly applied as in a real object-centric dataset. That is, coarse
crops benefits scene images SSL. A novel cropping strategy that produces coarse
object box is proposed. The new pipeline and cropping strategy successfully
learn quality features from uncurated datasets without ImageNet. Experiments
show that our pipeline outperforms existing SSL methods (MoCo-v2, DenseCL and
MAE) on classification, detection and segmentation tasks. We further conduct
extensively ablations to verify that: 1) the pipeline do not rely on pretrained
models; 2) the cropping strategy is better than existing object discovery
methods; 3) our method is not sensitive to hyperparameters and data
augmentations.
- Abstract(参考訳): ほとんどの自己教師付き学習(SSL)メソッドは、オブジェクト中心の仮定が成立するキュレートデータセットで動作することが多い。
この仮定は未解決の画像に分解される。
既存のシーン画像SSL法は、よくマッチした、あるいは密度の高いオリジナルのシーン画像から2つのビューを見つけようとするが、これは複雑で計算的に重くなる。
まず、粗いオブジェクト(適切なオブジェクト性を持つ)である領域を見つけ出し、疑似オブジェクト中心のイメージとして抽出し、その後、sslメソッドを実際のオブジェクト中心のデータセットのように直接適用することができる。
つまり、粗い作物はシーンイメージSSLの恩恵を受ける。
粗いオブジェクトボックスを生成する新しい収穫戦略を提案する。
新しいパイプラインとトリミング戦略は、ImageNetなしで未処理のデータセットから品質機能を学ぶことに成功した。
実験の結果、パイプラインは既存のSSLメソッド(MoCo-v2、DenseCL、MAE)よりも、分類、検出、セグメンテーションタスクで優れています。
私たちはさらに、それを検証するために広範囲なアブレーションを行います。
1) パイプラインは事前訓練されたモデルに依存しない。
2) クロッピング戦略は,既存のオブジェクト発見方法よりも優れている。
3) この手法はハイパーパラメータやデータ拡張に敏感ではない。
関連論文リスト
- De-coupling and De-positioning Dense Self-supervised Learning [65.56679416475943]
Dense Self-Supervised Learning (SSL)メソッドは、複数のオブジェクトでイメージを処理する際に、画像レベルの特徴表現を使用する際の制限に対処する。
本研究は, 層深度やゼロパディングに伴う受容野の増大によって生じる, 結合と位置バイアスに悩まされていることを示す。
我々はCOCOにおける本手法の利点と、オブジェクト分類、セマンティックセグメンテーション、オブジェクト検出のための新しい挑戦的ベンチマークであるOpenImage-MINIについて示す。
論文 参考訳(メタデータ) (2023-03-29T18:07:25Z) - ASIC: Aligning Sparse in-the-wild Image Collections [86.66498558225625]
本稿では,オブジェクトカテゴリのスパース画像コレクションの協調アライメント手法を提案する。
我々は、事前学習された視覚変換器(ViT)モデルの深い特徴から得られるペアワイズ近傍をノイズおよびスパースキーポイントマッチとして利用する。
CUBとSPair-71kベンチマークの実験により,我々の手法はグローバルに一貫した高品質な対応を実現できることが示された。
論文 参考訳(メタデータ) (2023-03-28T17:59:28Z) - Pushing the Limits of Simple Pipelines for Few-Shot Learning: External
Data and Fine-Tuning Make a Difference [74.80730361332711]
コンピュータビジョンにおいて、ほとんどショット学習は重要かつトピック的な問題である。
単純なトランスフォーマーベースのパイプラインは、標準ベンチマークで驚くほど優れたパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2022-04-15T02:55:58Z) - Object discovery and representation networks [78.16003886427885]
本研究では,事前に符号化された構造を自ら発見する自己教師型学習パラダイムを提案する。
Odinはオブジェクト発見と表現ネットワークを結合して意味のある画像のセグメンテーションを発見する。
論文 参考訳(メタデータ) (2022-03-16T17:42:55Z) - Semantic decoupled representation learning for remote sensing image
change detection [17.548248093344576]
RS画像CDのセマンティックデカップリング表現学習を提案する。
我々は、セマンティックマスクを利用して、異なるセマンティック領域の表現をアンタングルする。
さらに、下流CDタスクにおける関心対象の認識に役立ち、異なる意味表現を区別するようモデルに強制する。
論文 参考訳(メタデータ) (2022-01-15T07:35:26Z) - Learning to Detect Every Thing in an Open World [139.78830329914135]
我々は、Learning to Detect Every Thing (LDET)と呼ぶ、シンプルながら驚くほど強力なデータ拡張とトレーニングスキームを提案する。
可視だがラベル付けされていない背景オブジェクトの隠蔽を避けるため、元の画像の小さな領域から採取した背景画像上に注釈付きオブジェクトを貼り付ける。
LDETは、オープンワールドのインスタンスセグメンテーションタスクにおいて、多くのデータセットに大きな改善をもたらす。
論文 参考訳(メタデータ) (2021-12-03T03:56:06Z) - Object-Aware Cropping for Self-Supervised Learning [21.79324121283122]
本研究では,通常のランダムな作付けに基づく自己教師型学習が,このようなデータセットでは不十分であることを示す。
対象提案アルゴリズムから得られた作物を、ランダムな作物の一方または両方に置き換えることを提案する。
オブジェクト認識トリミング(object-aware cropping)と呼ぶこのアプローチを用いることで、分類とオブジェクト検出ベンチマークにおいてシーントリミングよりも大幅に改善される。
論文 参考訳(メタデータ) (2021-12-01T07:23:37Z) - Rectifying the Shortcut Learning of Background: Shared Object
Concentration for Few-Shot Image Recognition [101.59989523028264]
Few-Shot画像分類は、大規模なデータセットから学んだ事前学習された知識を利用して、一連の下流分類タスクに取り組むことを目的としている。
本研究では,Few-Shot LearningフレームワークであるCOSOCを提案する。
論文 参考訳(メタデータ) (2021-07-16T07:46:41Z) - Object-Based Image Coding: A Learning-Driven Revisit [30.550019759674477]
根本的な問題は、任意の形状のオブジェクトを細かい粒度で効率的に処理する方法である。
我々は,画像層分解のためのオブジェクトセグメンテーションネットワークと,マスク付き前景オブジェクトと背景シーンを別々に処理するための並列畳み込みに基づくニューラルイメージ圧縮ネットワークを提案する。
すべてのコンポーネントは、視覚的に快適な再構築のための貢献をインテリジェントに評価するために、エンドツーエンドの学習フレームワークに最適化されています。
論文 参考訳(メタデータ) (2020-03-18T04:00:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。