論文の概要: MOCA: Self-supervised Representation Learning by Predicting Masked
Online Codebook Assignments
- arxiv url: http://arxiv.org/abs/2307.09361v1
- Date: Tue, 18 Jul 2023 15:46:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 14:05:23.713192
- Title: MOCA: Self-supervised Representation Learning by Predicting Masked
Online Codebook Assignments
- Title(参考訳): MOCA:masked Online Codebook Assignments予測による自己指導型表現学習
- Authors: Spyros Gidaris, Andrei Bursuc, Oriane Simeoni, Antonin Vobecky, Nikos
Komodakis, Matthieu Cord, Patrick P\'erez
- Abstract要約: 自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
相乗的, 計算効率の両パラダイムを効果的に活用する方法を示す。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
- 参考スコア(独自算出の注目度): 48.67345147676275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning can be used for mitigating the greedy needs of
Vision Transformer networks for very large fully-annotated datasets. Different
classes of self-supervised learning offer representations with either good
contextual reasoning properties, e.g., using masked image modeling strategies,
or invariance to image perturbations, e.g., with contrastive methods. In this
work, we propose a single-stage and standalone method, MOCA, which unifies both
desired properties using novel mask-and-predict objectives defined with
high-level features (instead of pixel-level details). Moreover, we show how to
effectively employ both learning paradigms in a synergistic and
computation-efficient way. Doing so, we achieve new state-of-the-art results on
low-shot settings and strong experimental results in various evaluation
protocols with a training that is at least 3 times faster than prior methods.
- Abstract(参考訳): 自己教師付き学習は、非常に大きな完全注釈付きデータセットに対するビジョントランスフォーマーネットワークの欲求を緩和するために使用できる。
自己教師付き学習の異なるクラスは、例えば、マスク付き画像モデリング戦略を使ったり、コントラスト的手法で画像摂動に対する不変性といった、良好な文脈推論特性を持つ表現を提供する。
そこで本研究では,高レベルの特徴(ピクセルレベルの詳細ではなく)で定義された新しいマスク・アンド・予測目標を用いて,所望の特性を統一するMOCAを提案する。
さらに,学習パラダイムを相乗的かつ計算効率のよい方法で効果的に活用する方法を示す。
そこで我々は,従来手法の少なくとも3倍の速さで,低ショット設定による新たな最先端結果と,各種評価プロトコルの強力な実験結果を得る。
関連論文リスト
- Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Mixture of Self-Supervised Learning [2.191505742658975]
自己教師型学習は、特定のタスクに適用される前にモデル上でトレーニングされるプレテキストタスクを使用することで機能する。
従来の研究では、プリテキストタスクとして1つのタイプの変換しか使用されていなかった。
これにより、複数のプリテキストタスクが使用されているかどうか、すべてのプリテキストタスクを組み合わせるためにゲーティングネットワークを使用するかどうか、という疑問が持ち上がる。
論文 参考訳(メタデータ) (2023-07-27T14:38:32Z) - Multi-Level Contrastive Learning for Dense Prediction Task [59.591755258395594]
本稿では,高密度予測タスクのための領域レベルの特徴表現を効率よく学習するための,MCL(Multi-Level Contrastive Learning for Dense Prediction Task)を提案する。
本手法は, 局所化, スケールの整合性, 認識の3つの要因に動機付けられている。
提案手法は,様々なデータセットにおける最近の最先端の手法よりも有意なマージンを有する。
論文 参考訳(メタデータ) (2023-04-04T17:59:04Z) - Vision Learners Meet Web Image-Text Pairs [24.194061585891692]
Webデータの優れたスケーラビリティを考えると、ノイズの多いWebソース画像とテキストのペアデータに対する自己教師付き事前学習を検討する。
マスク付きトレーニング目標を用いたシングルモーダルトレーニングや,画像テキストコンストラシティブトレーニングを用いたマルチモーダルトレーニングなど,さまざまな手法を比較した。
我々は、スケーラブルなWebソース画像テキストデータから学習する新しいビジュアル表現事前学習手法MUlti-modal Generator(MUG)を提案する。
論文 参考訳(メタデータ) (2023-01-17T18:53:24Z) - Exploring The Role of Mean Teachers in Self-supervised Masked
Auto-Encoders [64.03000385267339]
マスク付き画像モデリング(MIM)は視覚変換器を用いた視覚表現の自己教師型学習(SSL)の一般的な戦略となっている。
簡単なSSL方式であるRC-MAE(Restruction-Consistent Masked Auto-Encoder)を提案する。
RC-MAEは、事前学習中に最先端の自己蒸留法よりも早く収束し、メモリ使用量の削減を必要とする。
論文 参考訳(メタデータ) (2022-10-05T08:08:55Z) - Multimodal Contrastive Training for Visual Representation Learning [45.94662252627284]
マルチモーダルデータを取り入れた視覚表現の学習手法を開発した。
本手法は,各モダリティおよびセマンティクス情報内の本質的なデータ特性をクロスモーダル相関から同時に利用する。
統合フレームワークにマルチモーダルトレーニングを組み込むことで,より強力で汎用的な視覚的特徴を学習することができる。
論文 参考訳(メタデータ) (2021-04-26T19:23:36Z) - Unsupervised Learning of Visual Features by Contrasting Cluster
Assignments [57.33699905852397]
ペア比較の計算を必要とせず,コントラスト的手法を生かしたオンラインアルゴリズムSwaVを提案する。
本手法では,クラスタ割り当て間の一貫性を保ちながら,同時にデータをクラスタ化する。
我々の方法は大規模で小さなバッチで訓練でき、無制限のデータにスケールできる。
論文 参考訳(メタデータ) (2020-06-17T14:00:42Z) - Prototypical Contrastive Learning of Unsupervised Representations [171.3046900127166]
原型コントラスト学習(Prototypeal Contrastive Learning, PCL)は、教師なし表現学習法である。
PCLは暗黙的にデータのセマンティック構造を学習された埋め込み空間にエンコードする。
PCLは、複数のベンチマークで最先端のインスタンスワイド・コントラスト学習法より優れている。
論文 参考訳(メタデータ) (2020-05-11T09:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。