論文の概要: UniVIP: A Unified Framework for Self-Supervised Visual Pre-training
- arxiv url: http://arxiv.org/abs/2203.06965v1
- Date: Mon, 14 Mar 2022 10:04:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 02:41:05.425265
- Title: UniVIP: A Unified Framework for Self-Supervised Visual Pre-training
- Title(参考訳): UniVIP: 自己監督型ビジュアル事前トレーニングのための統一フレームワーク
- Authors: Zhaowen Li, Yousong Zhu, Fan Yang, Wei Li, Chaoyang Zhao, Yingying
Chen, Zhiyang Chen, Jiahao Xie, Liwei Wu, Rui Zhao, Ming Tang, Jinqiao Wang
- Abstract要約: 単一中心オブジェクトまたは非調和データセット上で,汎用的な視覚表現を学習するための,新しい自己教師型フレームワークを提案する。
大規模実験により、非高調波COCOで事前訓練されたUniVIPは、最先端の転送性能を実現することが示された。
また、ImageNetのような単一中心オブジェクトのデータセットを利用でき、線形探索において同じ事前学習エポックでBYOLを2.5%上回る。
- 参考スコア(独自算出の注目度): 50.87603616476038
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL) holds promise in leveraging large amounts of
unlabeled data. However, the success of popular SSL methods has limited on
single-centric-object images like those in ImageNet and ignores the correlation
among the scene and instances, as well as the semantic difference of instances
in the scene. To address the above problems, we propose a Unified
Self-supervised Visual Pre-training (UniVIP), a novel self-supervised framework
to learn versatile visual representations on either single-centric-object or
non-iconic dataset. The framework takes into account the representation
learning at three levels: 1) the similarity of scene-scene, 2) the correlation
of scene-instance, 3) the discrimination of instance-instance. During the
learning, we adopt the optimal transport algorithm to automatically measure the
discrimination of instances. Massive experiments show that UniVIP pre-trained
on non-iconic COCO achieves state-of-the-art transfer performance on a variety
of downstream tasks, such as image classification, semi-supervised learning,
object detection and segmentation. Furthermore, our method can also exploit
single-centric-object dataset such as ImageNet and outperforms BYOL by 2.5%
with the same pre-training epochs in linear probing, and surpass current
self-supervised object detection methods on COCO dataset, demonstrating its
universality and potential.
- Abstract(参考訳): 自己教師付き学習(SSL)は、大量のラベルのないデータを活用することを約束する。
しかし、一般的なSSLメソッドの成功は、ImageNetのような単一中心オブジェクトの画像に限られており、シーンとインスタンス間の相関やシーン内のインスタンスの意味的な違いを無視している。
この問題に対処するため,我々は,単一中心オブジェクトと非イコニックデータセットのどちらでも汎用的な視覚表現を学ぶための,新しい自己教師付き視覚前訓練(univip)を提案する。
このフレームワークは、表現学習を3つのレベルで考慮します。
1)シーンシーンの類似性
2)シーン・インスティスタンスの相関
3) インスタンスインスタンスの識別。
学習中に、インスタンスの識別を自動的に計測する最適な輸送アルゴリズムを採用する。
大規模実験により, 画像分類, 半教師あり学習, 物体検出, セグメンテーションなど, さまざまな下流タスクにおいて, 最先端の伝達性能を実現することができた。
さらに,本手法では,イメージネットやBYOLのような単一中心オブジェクトのデータセットを線形探索において同一の事前学習エポックで2.5%向上させ,COCOデータセット上の現在の自己教師対象検出手法を超越し,その普遍性と可能性を示す。
関連論文リスト
- SegLoc: Visual Self-supervised Learning Scheme for Dense Prediction
Tasks of Security Inspection X-ray Images [4.251030047034566]
コンピュータビジョンにおける自己教師型学習は、比較的軌道に留まることができない。
本稿では,セキュリティ検査用X線画像の高密度予測タスクを評価する。
我々のモデルは、対照的な学習の最も難しい欠点の1つ、すなわち、クエリの埋め込みの偽陰性なペアに対処することに成功しました。
論文 参考訳(メタデータ) (2023-10-12T15:42:17Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Masked Momentum Contrastive Learning for Zero-shot Semantic
Understanding [39.424931953675994]
自己教師付き事前学習(SSP)は、ラベル付きデータなしで有意義な特徴表現を抽出できる機械学習の一般的な手法として登場した。
本研究は、コンピュータビジョンタスクにおける純粋な自己教師付き学習(SSL)技術の有効性を評価する。
論文 参考訳(メタデータ) (2023-08-22T13:55:57Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - In-Domain Self-Supervised Learning Improves Remote Sensing Image Scene
Classification [5.323049242720532]
リモートセンシング画像分類のための有望なアプローチとして,自己教師付き学習が登場している。
そこで本研究では,14の下流データセットにまたがる自己教師型事前学習戦略について検討し,その効果を評価する。
論文 参考訳(メタデータ) (2023-07-04T10:57:52Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Unsupervised Object-Level Representation Learning from Scene Images [97.07686358706397]
Object-level Representation Learning (ORL) はシーンイメージに対する新たな自己教師型学習フレームワークである。
我々の重要な洞察は、画像レベルの自己教師付き事前学習を、オブジェクトレベルの意味的対応を見つけるための事前学習として活用することである。
ORLは、複数の下流タスクにおける教師付きImageNet事前学習を超越しても、シーンイメージ上での自己教師型学習のパフォーマンスを著しく向上させる。
論文 参考訳(メタデータ) (2021-06-22T17:51:24Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z) - Train a One-Million-Way Instance Classifier for Unsupervised Visual
Representation Learning [45.510042484456854]
本稿では、パラメトリックなインスタンスレベルの計算を用いて、データセット内のすべての画像を識別するプリテキストタスクを備えた、単純な教師なし視覚表現学習法を提案する。
全体的なフレームワークは教師付き分類モデルのレプリカであり、セマンティッククラス(犬、鳥、船など)はインスタンスIDに置き換えられる。
数千のセマンティックラベルから数百万のインスタンスラベルへの分類タスクのスケールアップは、1)大規模ソフトマックス分類器、2)インスタンスサンプルの頻度の低い訪問による緩やかな収束、3)ノイズの多い大量の負のクラスなど、特定の課題をもたらす。
論文 参考訳(メタデータ) (2021-02-09T14:44:18Z) - Unsupervised Feature Learning by Cross-Level Instance-Group
Discrimination [68.83098015578874]
我々は、インスタンスグループ化ではなく、クロスレベルな識別によって、インスタンス間の類似性を対照的な学習に統合する。
CLDは、教師なし学習を、自然データや現実世界のアプリケーションに効果的に近づける。
セルフスーパービジョン、セミスーパービジョン、トランスファーラーニングベンチマークに関する新たな最先端技術は、報告されたすべてのパフォーマンスでMoCo v2とSimCLRを上回っている。
論文 参考訳(メタデータ) (2020-08-09T21:13:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。