論文の概要: On the Generalization Ability of Unsupervised Pretraining
- arxiv url: http://arxiv.org/abs/2403.06871v1
- Date: Mon, 11 Mar 2024 16:23:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 18:14:33.149132
- Title: On the Generalization Ability of Unsupervised Pretraining
- Title(参考訳): 教師なし事前学習の一般化能力について
- Authors: Yuyang Deng, Junyuan Hong, Jiayu Zhou, Mehrdad Mahdavi
- Abstract要約: 教師なし学習の最近の進歩は、教師なし事前学習、および微調整がモデル一般化を改善することを示している。
本稿では、教師なし事前学習中に得られた知識の伝達可能性に影響を及ぼす重要な要因をその後の微調整フェーズに照らす新しい理論的枠組みを提案する。
この結果は教師なし事前学習と微調整のパラダイムの理解を深め、より効果的な事前学習アルゴリズムの設計に光を当てることができる。
- 参考スコア(独自算出の注目度): 53.06175754026037
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in unsupervised learning have shown that unsupervised
pre-training, followed by fine-tuning, can improve model generalization.
However, a rigorous understanding of how the representation function learned on
an unlabeled dataset affects the generalization of the fine-tuned model is
lacking. Existing theoretical research does not adequately account for the
heterogeneity of the distribution and tasks in pre-training and fine-tuning
stage. To bridge this gap, this paper introduces a novel theoretical framework
that illuminates the critical factor influencing the transferability of
knowledge acquired during unsupervised pre-training to the subsequent
fine-tuning phase, ultimately affecting the generalization capabilities of the
fine-tuned model on downstream tasks. We apply our theoretical framework to
analyze generalization bound of two distinct scenarios: Context Encoder
pre-training with deep neural networks and Masked Autoencoder pre-training with
deep transformers, followed by fine-tuning on a binary classification task.
Finally, inspired by our findings, we propose a novel regularization method
during pre-training to further enhances the generalization of fine-tuned model.
Overall, our results contribute to a better understanding of unsupervised
pre-training and fine-tuning paradigm, and can shed light on the design of more
effective pre-training algorithms.
- Abstract(参考訳): 教師なし学習の最近の進歩は、教師なし事前学習、および微調整がモデル一般化を改善することを示している。
しかし、ラベルなしデータセットで学習した表現関数が微調整モデルの一般化にどのように影響するかの厳密な理解が不足している。
既存の理論的研究は、事前訓練と微調整段階における分布とタスクの多様性を十分に考慮していない。
このギャップを埋めるため,本論文では,教師なし事前学習中に獲得した知識の伝達性に影響を与える重要な要因を,後続の微調整フェーズに照らし出し,最終的に下流タスクにおける微調整モデルの一般化能力に影響を及ぼす,新たな理論的枠組みを提案する。
本研究では,深層ニューラルネットワークを用いたコンテキストエンコーダの事前学習と,深層トランスフォーマーによるMasked Autoencoderの事前学習と,バイナリ分類タスクによる微調整という,2つの異なるシナリオの一般化境界を分析するための理論的枠組みを適用した。
最後に,本研究の成果に触発されて,事前学習における新たな正規化手法を提案し,微調整モデルの一般化をさらに促進する。
全体としては,教師なし事前学習と微調整のパラダイムをよりよく理解し,より効果的な事前学習アルゴリズムの設計に光を当てることができる。
関連論文リスト
- HG-Adapter: Improving Pre-Trained Heterogeneous Graph Neural Networks with Dual Adapters [53.97380482341493]
事前学習, 即時学習」は, 事前学習したヘテロジニアスグラフニューラルネットワーク(HGNN)のチューニング性能を示す。
本稿では、2つの新しいアダプタと潜在的ラベル付きデータ拡張を組み合わせた統合フレームワークを提案し、事前学習されたHGNNモデルの一般化を改善する。
論文 参考訳(メタデータ) (2024-11-02T06:43:54Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - Learning Expressive Priors for Generalization and Uncertainty Estimation
in Neural Networks [77.89179552509887]
本稿では,ディープニューラルネットワークにおける一般化と不確実性推定を推し進める新しい事前学習手法を提案する。
キーとなる考え方は、ニューラルネットワークのスケーラブルで構造化された後部を、一般化を保証する情報的事前として活用することである。
本研究では,不確実性推定と一般化における本手法の有効性を徹底的に示す。
論文 参考訳(メタデータ) (2023-07-15T09:24:33Z) - A Bayesian approach to quantifying uncertainties and improving
generalizability in traffic prediction models [0.0]
本稿では,高一般化性を有する交通予測の不確実性を考慮したベイズ型リカレントニューラルネットワークフレームワークを提案する。
正規化は、モデルの複雑さを制御することによって、ディープニューラルネットワークのトレーニングプロセスを変化させることを示す。
特に交通管理アプリケーションでは,複数箇所にわたる交通状況の予測が目的である。
論文 参考訳(メタデータ) (2023-07-12T06:23:31Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - With Greater Distance Comes Worse Performance: On the Perspective of
Layer Utilization and Model Generalization [3.6321778403619285]
ディープニューラルネットワークの一般化は、マシンラーニングにおける主要なオープンな問題の1つだ。
初期のレイヤは一般的に、トレーニングデータとテストデータの両方のパフォーマンスに関する表現を学びます。
より深いレイヤは、トレーニングのリスクを最小限に抑え、テストや不正なラベル付けされたデータとうまく連携できない。
論文 参考訳(メタデータ) (2022-01-28T05:26:32Z) - Bi-tuning of Pre-trained Representations [79.58542780707441]
Bi-tuningは、教師付きと教師なしの両方の事前訓練された表現を下流タスクに微調整するための一般的な学習フレームワークである。
バイチューニングは、事前訓練された表現のバックボーンに2つのヘッドを統合することで、バニラファインチューニングを一般化する。
バイチューニングは、教師付きモデルと教師なしモデルの両方の微調整タスクを大きなマージンで達成する。
論文 参考訳(メタデータ) (2020-11-12T03:32:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。