論文の概要: Is Pre-training Truly Better Than Meta-Learning?
- arxiv url: http://arxiv.org/abs/2306.13841v1
- Date: Sat, 24 Jun 2023 02:26:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 18:50:22.363634
- Title: Is Pre-training Truly Better Than Meta-Learning?
- Title(参考訳): 事前学習はメタ学習より本当に優れているか?
- Authors: Brando Miranda, Patrick Yu, Saumya Goyal, Yu-Xiong Wang, Sanmi Koyejo
- Abstract要約: 定型事前学習(PT)モデルと評価中の最終層の微調整は、標準的なメタ学習アルゴリズムよりも優れていると考えられている。
我々はこれらの主張を再評価し、多種多様なデータセットを詳細に検証した。
- 参考スコア(独自算出の注目度): 19.786189931723364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the context of few-shot learning, it is currently believed that a fixed
pre-trained (PT) model, along with fine-tuning the final layer during
evaluation, outperforms standard meta-learning algorithms. We re-evaluate these
claims under an in-depth empirical examination of an extensive set of formally
diverse datasets and compare PT to Model Agnostic Meta-Learning (MAML). Unlike
previous work, we emphasize a fair comparison by using: the same architecture,
the same optimizer, and all models trained to convergence. Crucially, we use a
more rigorous statistical tool -- the effect size (Cohen's d) -- to determine
the practical significance of the difference between a model trained with PT
vs. a MAML. We then use a previously proposed metric -- the diversity
coefficient -- to compute the average formal diversity of a dataset. Using this
analysis, we demonstrate the following: 1. when the formal diversity of a data
set is low, PT beats MAML on average and 2. when the formal diversity is high,
MAML beats PT on average. The caveat is that the magnitude of the average
difference between a PT vs. MAML using the effect size is low (according to
classical statistical thresholds) -- less than 0.2. Nevertheless, this
observation is contrary to the currently held belief that a pre-trained model
is always better than a meta-learning model. Our extensive experiments consider
21 few-shot learning benchmarks, including the large-scale few-shot learning
dataset Meta-Data set. We also show no significant difference between a MAML
model vs. a PT model with GPT-2 on Openwebtext. We, therefore, conclude that a
pre-trained model does not always beat a meta-learned model and that the formal
diversity of a dataset is a driving factor.
- Abstract(参考訳): 少数ショット学習の文脈では、固定事前学習(pt)モデルは、評価中の最終層を微調整すると同時に、標準的なメタ学習アルゴリズムを上回っていると考えられている。
我々はこれらの主張を再評価し、多種多様なデータセットの詳細な検証を行い、PTとモデル非依存メタラーニング(MAML)を比較した。
以前の作業とは異なり、同じアーキテクチャ、同じオプティマイザ、収束のために訓練されたすべてのモデルを使用することで、公正な比較を強調します。
重要なことは、PTでトレーニングされたモデルとMAMLでトレーニングされたモデルの違いの実用的意義を決定するために、より厳密な統計ツール -- 効果サイズ(コーエンのd)を使います。
次に、以前に提案された指標である多様性係数を使って、データセットの平均的な形式的多様性を計算する。
この分析を用いて, 以下のことを示す。
1.データセットの形式的多様性が低い場合、PTはMAMLを平均で上回り、
2. 形式的多様性が高い場合,MAMLはPTを平均で上回る。
注意すべき点は、効果サイズを用いたptとmamlの平均差の大きさが低く(古典的な統計しきい値により)0.2未満であることである。
しかしながら、この観察は、事前学習されたモデルはメタ学習モデルよりも常に優れているという現在の信念に反している。
当社の広範な実験では,大規模なマイナショット学習データセットを含む,21のマイナショット学習ベンチマークについて検討しています。
また, Openwebtext 上の GPT-2 を用いた MAML モデルと PT モデルとの有意な差も示さなかった。
したがって,事前学習モデルが必ずしもメタ学習モデルに勝っている訳ではなく,データセットの形式的多様性が要因であると結論付ける。
関連論文リスト
- Exploring the Efficacy of Meta-Learning: Unveiling Superior Data Diversity Utilization of MAML Over Pre-training [1.3980986259786223]
データセットの多様性が視覚モデルの性能に影響を及ぼすことを示す。
本研究は,テストセットの精度とデータの多様性との間に正の相関関係を示す。
これらの結果は我々の仮説を支持し、形式的なデータの多様性がモデルの性能にどのように影響するかをより深く探究するための有望な方法を示す。
論文 参考訳(メタデータ) (2025-01-15T00:56:59Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Non-Invasive Fairness in Learning through the Lens of Data Drift [88.37640805363317]
データや学習アルゴリズムを変更することなく、機械学習モデルの公平性を向上する方法を示す。
異なる集団間の傾向のばらつきと、学習モデルと少数民族間の連続的な傾向は、データドリフトと類似している。
このドリフトを解決するための2つの戦略(モデル分割とリウィーディング)を探索し、基礎となるデータに対するモデル全体の適合性を改善することを目的としている。
論文 参考訳(メタデータ) (2023-03-30T17:30:42Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Does a Technique for Building Multimodal Representation Matter? --
Comparative Analysis [0.0]
マルチモーダル表現を構築するためのテクニックの選択は、可能な限り高いモデルの性能を得るために不可欠であることを示す。
Amazon Reviews、MovieLens25M、MovieLens1Mの3つのデータセットで実験が行われる。
論文 参考訳(メタデータ) (2022-06-09T21:30:10Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z) - Training Experimentally Robust and Interpretable Binarized Regression
Models Using Mixed-Integer Programming [3.179831861897336]
マルチクラス分類タスクに対するロバストかつ解釈可能な二項化回帰モデルをトレーニングするためのモデルに基づくアプローチを提案する。
MIPモデルは、重み付けされた目的を用いて予測マージンとモデルサイズを最適化する。
MIPを用いた頑健かつ解釈可能な二項化回帰モデルのトレーニングの有効性を示す。
論文 参考訳(メタデータ) (2021-12-01T11:53:08Z) - Mismatched No More: Joint Model-Policy Optimization for Model-Based RL [172.37829823752364]
本稿では,モデルとポリシーを共同でトレーニングする単一目的について提案する。
我々の目標は、期待されるリターンのグローバルな低い境界であり、この境界は特定の仮定の下で厳密になる。
結果のアルゴリズム(MnM)は概念的にはGANと似ている。
論文 参考訳(メタデータ) (2021-10-06T13:43:27Z) - Model-based micro-data reinforcement learning: what are the crucial
model properties and which model to choose? [0.2836066255205732]
我々は,マイクロデータモデルに基づく強化学習(MBRL)に寄与する。
マルチモーダルな後続予測を必要とする環境では、混合密度ネットは他のモデルよりも大きなマージンで優れていることがわかった。
また、決定論的モデルは同等であり、実際、確率論的モデルよりも一貫して(非目立ったことではないが)優れていることも見出した。
論文 参考訳(メタデータ) (2021-07-24T11:38:25Z) - On Anytime Learning at Macroscale [33.674452784463774]
多くの実用的なアプリケーションでは、データが一度に到着するのではなく、時間の経過とともにバッチになる。
欲求予測器は、これらが利用可能になったらすぐにバッチでトレーニングすることで、非自明な予測を生成することができるが、将来のデータの準最適利用も可能かもしれない。
荒々しい予測器は、複数のバッチをより大きなデータセットに集約するのに長い時間を要するが、最終的にははるかに優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2021-06-17T14:45:22Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。