論文の概要: Towards Understanding Why Mask-Reconstruction Pretraining Helps in
Downstream Tasks
- arxiv url: http://arxiv.org/abs/2206.03826v3
- Date: Fri, 10 Jun 2022 00:37:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-13 12:15:38.188212
- Title: Towards Understanding Why Mask-Reconstruction Pretraining Helps in
Downstream Tasks
- Title(参考訳): ダウンストリームタスクにおけるマスクリコンストラクション事前トレーニングがなぜ役に立つのか
- Authors: Jiachun Pan, Pan Zhou, Shuicheng Yan
- Abstract要約: Mask-Reconstruction Pretraining (MRP)はランダムにマスク入力パッチにアプローチし、オートエンコーダを介してこれらのマスクパッチの画素や意味的特徴を再構築する。
下流タスクでは、事前訓練されたエンコーダの微調整が、スクラッチから訓練された従来の教師付き学習(SL)を著しく上回っている。
- 参考スコア(独自算出の注目度): 129.1080795985234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For unsupervised pretraining, mask-reconstruction pretraining (MRP)
approaches randomly mask input patches and then reconstruct pixels or semantic
features of these masked patches via an auto-encoder. Then for a downstream
task, supervised fine-tuning the pretrained encoder remarkably surpasses the
conventional supervised learning (SL) trained from scratch. However, it is
still unclear 1) how MRP performs semantic learning in the pretraining phase
and 2) why it helps in downstream tasks. To solve these problems, we
theoretically show that on an auto-encoder of a two/one-layered convolution
encoder/decoder, MRP can capture all discriminative semantics in the
pretraining dataset, and accordingly show its provable improvement over SL on
the classification downstream task. Specifically, we assume that pretraining
dataset contains multi-view samples of ratio $1-\mu$ and single-view samples of
ratio $\mu$, where multi/single-view samples has multiple/single discriminative
semantics. Then for pretraining, we prove that 1) the convolution kernels of
the MRP encoder captures all discriminative semantics in the pretraining data;
and 2) a convolution kernel captures at most one semantic. Accordingly, in the
downstream supervised fine-tuning, most semantics would be captured and
different semantics would not be fused together. This helps the downstream
fine-tuned network to easily establish the relation between kernels and
semantic class labels. In this way, the fine-tuned encoder in MRP provably
achieves zero test error with high probability for both multi-view and
single-view test data. In contrast, as proved by~[3], conventional SL can only
obtain a test accuracy between around $0.5\mu$ for single-view test data. These
results together explain the benefits of MRP in downstream tasks. Experimental
results testify to multi-view data assumptions and our theoretical
implications.
- Abstract(参考訳): 教師なし事前トレーニングでは、マスク再構成事前トレーニング(MRP)がランダムに入力パッチをマスクし、オートエンコーダを介してこれらのマスクパッチのピクセルや意味的特徴を再構成する。
そして、下流タスクでは、事前学習されたエンコーダの微調整が、スクラッチから訓練された従来の教師付き学習(sl)を大幅に上回る。
しかし、まだ不明である。
1)MRPが事前学習フェーズで意味学習を行う方法と課題
2) ダウンストリームタスクになぜ役立つのか。
これらの問題を解決するために,2層/1層畳み込みエンコーダ/デコーダの自動エンコーダにおいて,mrpはプリトレーニングデータセット内のすべての識別意味をキャプチャできることを示す。
具体的には,プレトレーニングデータセットには1-\mu$の複数ビューサンプルと1-\mu$の単一ビューサンプルが含まれていると仮定する。
事前訓練のためには
1) MRPエンコーダの畳み込みカーネルは、事前学習データ中のすべての識別的意味をキャプチャし、
2)畳み込みカーネルは、少なくとも1つの意味をキャプチャする。
したがって、下流の教師付き微調整では、ほとんどのセマンティクスはキャプチャされ、異なるセマンティクスは融合しない。
これにより、下流の微調整ネットワークは、カーネルとセマンティクスクラスラベルの関係を簡単に確立できる。
このようにして、mrpの微調整エンコーダは、マルチビューとシングルビューの両方のテストデータに対して高い確率でゼロテストエラーを実現できる。
一方、~[3]で証明されたように、従来のslはシングルビューテストデータに対して0.5\mu$程度の精度しか得られない。
これらの結果は下流タスクにおけるmrpの利点を説明するものである。
実験結果はマルチビューデータの仮定と理論的意味を検証した。
関連論文リスト
- Why Fine-grained Labels in Pretraining Benefit Generalization? [12.171634061370616]
近年の研究では、詳細なラベル付きデータでディープニューラルネットワークを事前トレーニングし、粗ラベル付きデータで微調整すると、粗ラベル付きデータで事前トレーニングするよりもより優れた一般化が得られることが示されている。
本稿では,入力データ分布を限定する階層的マルチビュー構造を導入することで,このギャップに対処する。
1)粗粒度事前学習はニューラルネットワークが共通の特徴をうまく学習するのに対して,2)粗粒度事前学習は,一般的な特徴に加えて稀な特徴をネットワークが学習するのに役立つため,ハードダウンストリームテストサンプルの精度が向上する。
論文 参考訳(メタデータ) (2024-10-30T15:41:30Z) - Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。
近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。
本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-11T13:44:49Z) - Task-customized Masked AutoEncoder via Mixture of Cluster-conditional
Experts [104.9871176044644]
Masked Autoencoder (MAE) は,モデル事前学習において有望な結果が得られる自己教師型学習手法である。
我々は、新しいMAEベースの事前学習パラダイム、Mixture of Cluster-conditional Experts (MoCE)を提案する。
MoCEは、クラスタ条件ゲートを使用して、各専門家にセマンティックなイメージのみをトレーニングする。
論文 参考訳(メタデータ) (2024-02-08T03:46:32Z) - Patch-level Routing in Mixture-of-Experts is Provably Sample-efficient
for Convolutional Neural Networks [74.68583356645276]
ディープラーニングでは、Mixix-of-experts(MoE)が、サンプル単位またはトーケン単位で専門家(サブネットワーク)を活性化する。
我々は,pMoEが適切な一般化を実現するために,必要なトレーニングサンプル数を確実に削減できることを初めて示す。
論文 参考訳(メタデータ) (2023-06-07T00:16:10Z) - Multi-Level Contrastive Learning for Dense Prediction Task [59.591755258395594]
本稿では,高密度予測タスクのための領域レベルの特徴表現を効率よく学習するための,MCL(Multi-Level Contrastive Learning for Dense Prediction Task)を提案する。
本手法は, 局所化, スケールの整合性, 認識の3つの要因に動機付けられている。
提案手法は,様々なデータセットにおける最近の最先端の手法よりも有意なマージンを有する。
論文 参考訳(メタデータ) (2023-04-04T17:59:04Z) - Single-Stage Open-world Instance Segmentation with Cross-task
Consistency Regularization [33.434628514542375]
オープンワールドのインスタンスセグメンテーションは、イメージからクラスに依存しないインスタンスをセグメントすることを目的としている。
本稿では,各インスタンスのマスクを直接生成する単一ステージフレームワークを提案する。
提案手法は, 完全教師付き設定と半教師付き設定の両方において, 印象的な結果が得られることを示す。
論文 参考訳(メタデータ) (2022-08-18T18:55:09Z) - Transformers Can Do Bayesian Inference [56.99390658880008]
我々はPFN(Presideed Data Fitted Networks)を提案する。
PFNは、大規模機械学習技術におけるインコンテキスト学習を活用して、大規模な後部集合を近似する。
我々は、PFNがガウス過程をほぼ完璧に模倣し、難解問題に対する効率的なベイズ推定を可能にすることを示した。
論文 参考訳(メタデータ) (2021-12-20T13:07:39Z) - Point Cloud Pre-training by Mixing and Disentangling [35.18101910728478]
Mixing and Disentangling (MD)は、ポイントクラウド事前トレーニングのための自己教師付き学習アプローチである。
我々は,エンコーダ+我々の(MD)が,スクラッチから訓練したエンコーダを著しく上回り,迅速に収束することを示す。
この自己教師型学習によるポイントクラウドの試みが、大規模ラベル付きデータへの深い学習モデル依存を減らす道を開くことを願っている。
論文 参考訳(メタデータ) (2021-09-01T15:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。