論文の概要: UniVIP: A Unified Framework for Self-Supervised Visual Pre-training
- arxiv url: http://arxiv.org/abs/2203.06965v1
- Date: Mon, 14 Mar 2022 10:04:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 02:41:05.425265
- Title: UniVIP: A Unified Framework for Self-Supervised Visual Pre-training
- Title(参考訳): UniVIP: 自己監督型ビジュアル事前トレーニングのための統一フレームワーク
- Authors: Zhaowen Li, Yousong Zhu, Fan Yang, Wei Li, Chaoyang Zhao, Yingying
Chen, Zhiyang Chen, Jiahao Xie, Liwei Wu, Rui Zhao, Ming Tang, Jinqiao Wang
- Abstract要約: 単一中心オブジェクトまたは非調和データセット上で,汎用的な視覚表現を学習するための,新しい自己教師型フレームワークを提案する。
大規模実験により、非高調波COCOで事前訓練されたUniVIPは、最先端の転送性能を実現することが示された。
また、ImageNetのような単一中心オブジェクトのデータセットを利用でき、線形探索において同じ事前学習エポックでBYOLを2.5%上回る。
- 参考スコア(独自算出の注目度): 50.87603616476038
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL) holds promise in leveraging large amounts of
unlabeled data. However, the success of popular SSL methods has limited on
single-centric-object images like those in ImageNet and ignores the correlation
among the scene and instances, as well as the semantic difference of instances
in the scene. To address the above problems, we propose a Unified
Self-supervised Visual Pre-training (UniVIP), a novel self-supervised framework
to learn versatile visual representations on either single-centric-object or
non-iconic dataset. The framework takes into account the representation
learning at three levels: 1) the similarity of scene-scene, 2) the correlation
of scene-instance, 3) the discrimination of instance-instance. During the
learning, we adopt the optimal transport algorithm to automatically measure the
discrimination of instances. Massive experiments show that UniVIP pre-trained
on non-iconic COCO achieves state-of-the-art transfer performance on a variety
of downstream tasks, such as image classification, semi-supervised learning,
object detection and segmentation. Furthermore, our method can also exploit
single-centric-object dataset such as ImageNet and outperforms BYOL by 2.5%
with the same pre-training epochs in linear probing, and surpass current
self-supervised object detection methods on COCO dataset, demonstrating its
universality and potential.
- Abstract(参考訳): 自己教師付き学習(SSL)は、大量のラベルのないデータを活用することを約束する。
しかし、一般的なSSLメソッドの成功は、ImageNetのような単一中心オブジェクトの画像に限られており、シーンとインスタンス間の相関やシーン内のインスタンスの意味的な違いを無視している。
この問題に対処するため,我々は,単一中心オブジェクトと非イコニックデータセットのどちらでも汎用的な視覚表現を学ぶための,新しい自己教師付き視覚前訓練(univip)を提案する。
このフレームワークは、表現学習を3つのレベルで考慮します。
1)シーンシーンの類似性
2)シーン・インスティスタンスの相関
3) インスタンスインスタンスの識別。
学習中に、インスタンスの識別を自動的に計測する最適な輸送アルゴリズムを採用する。
大規模実験により, 画像分類, 半教師あり学習, 物体検出, セグメンテーションなど, さまざまな下流タスクにおいて, 最先端の伝達性能を実現することができた。
さらに,本手法では,イメージネットやBYOLのような単一中心オブジェクトのデータセットを線形探索において同一の事前学習エポックで2.5%向上させ,COCOデータセット上の現在の自己教師対象検出手法を超越し,その普遍性と可能性を示す。
関連論文リスト
- A Probabilistic Model Behind Self-Supervised Learning [53.64989127914936]
自己教師付き学習(SSL)では、アノテートラベルなしで補助的なタスクを通じて表現が学習される。
自己教師型学習のための生成潜在変数モデルを提案する。
対照的な方法を含む識別的SSLのいくつかのファミリーは、表現に匹敵する分布を誘導することを示した。
論文 参考訳(メタデータ) (2024-02-02T13:31:17Z) - Visual Self-supervised Learning Scheme for Dense Prediction Tasks on X-ray Images [3.782392436834913]
自己教師付き学習(SSL)は自然言語処理(NLP)においてかなりの進歩をもたらした
しかし、既存のビジュアルSSLモデルにコントラスト学習を組み込むことは、しばしば監督対象を超越する、かなりの進歩をもたらした。
ここでは、セキュリティ検査X線画像を用いた密集予測タスクに着目し、提案モデルであるセグメントローカライゼーション(SegLoc)を評価する。
インスタンスローカライゼーション(InsLoc)モデルに基づいて、SegLocはコントラスト学習における重要な課題の1つ、すなわち、クエリ埋め込みの偽陰性ペアに対処する。
論文 参考訳(メタデータ) (2023-10-12T15:42:17Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Masked Momentum Contrastive Learning for Zero-shot Semantic
Understanding [39.424931953675994]
自己教師付き事前学習(SSP)は、ラベル付きデータなしで有意義な特徴表現を抽出できる機械学習の一般的な手法として登場した。
本研究は、コンピュータビジョンタスクにおける純粋な自己教師付き学習(SSL)技術の有効性を評価する。
論文 参考訳(メタデータ) (2023-08-22T13:55:57Z) - In-Domain Self-Supervised Learning Improves Remote Sensing Image Scene
Classification [5.323049242720532]
リモートセンシング画像分類のための有望なアプローチとして,自己教師付き学習が登場している。
そこで本研究では,14の下流データセットにまたがる自己教師型事前学習戦略について検討し,その効果を評価する。
論文 参考訳(メタデータ) (2023-07-04T10:57:52Z) - Semantic Positive Pairs for Enhancing Visual Representation Learning of Instance Discrimination methods [4.680881326162484]
インスタンス識別に基づく自己教師付き学習アルゴリズム(SSL)は有望な結果を示している。
類似したセマンティックコンテンツを用いてそれらの画像を識別し、肯定的な例として扱うアプローチを提案する。
我々は、ImageNet、STL-10、CIFAR-10の3つのベンチマークデータセットで、異なるインスタンス識別SSLアプローチで実験を行った。
論文 参考訳(メタデータ) (2023-06-28T11:47:08Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Unsupervised Object-Level Representation Learning from Scene Images [97.07686358706397]
Object-level Representation Learning (ORL) はシーンイメージに対する新たな自己教師型学習フレームワークである。
我々の重要な洞察は、画像レベルの自己教師付き事前学習を、オブジェクトレベルの意味的対応を見つけるための事前学習として活用することである。
ORLは、複数の下流タスクにおける教師付きImageNet事前学習を超越しても、シーンイメージ上での自己教師型学習のパフォーマンスを著しく向上させる。
論文 参考訳(メタデータ) (2021-06-22T17:51:24Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z) - Unsupervised Feature Learning by Cross-Level Instance-Group
Discrimination [68.83098015578874]
我々は、インスタンスグループ化ではなく、クロスレベルな識別によって、インスタンス間の類似性を対照的な学習に統合する。
CLDは、教師なし学習を、自然データや現実世界のアプリケーションに効果的に近づける。
セルフスーパービジョン、セミスーパービジョン、トランスファーラーニングベンチマークに関する新たな最先端技術は、報告されたすべてのパフォーマンスでMoCo v2とSimCLRを上回っている。
論文 参考訳(メタデータ) (2020-08-09T21:13:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。