論文の概要: Learning Dynamics of Meta-Learning in Small Model Pretraining
- arxiv url: http://arxiv.org/abs/2508.02189v1
- Date: Mon, 04 Aug 2025 08:34:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.2544
- Title: Learning Dynamics of Meta-Learning in Small Model Pretraining
- Title(参考訳): 小モデル事前学習におけるメタラーニングの学習ダイナミクス
- Authors: David Demitri Africa, Yuval Weiss, Paula Buttery, Richard Diehl Martinez,
- Abstract要約: 我々は,一階のMAMLとサブセットメイクLM事前学習を統合した。
LLama-style decoder-only model(11M-570M params) を4つの生成する。
多くの設定や実世界のアプリケーションで基本的なNLPタスクで評価する。
- 参考スコア(独自算出の注目度): 2.6684726101845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are powerful but costly. We ask whether meta-learning can make the pretraining of small language models not only better but also more interpretable. We integrate first-order MAML with subset-masked LM pretraining, producing four LLama-style decoder-only models (11M-570M params), and evaluate it on a fundamental NLP task with many settings and real-world applications. Compared with vanilla training, our model (i) reaches the same loss up to 1.6x sooner, (ii) improves F1 on multilingual Universal NER under equal compute, and (iii) makes the training dynamics easy to read: first the network's representations fan out ("diversify") and later they collapse into a smaller, shared subspace ("compress"). This two-stage shift shows up as a rise-and-fall in both effective-rank curves and attention-head entropy. The same curves pinpoint which layers specialise earliest and which later reconverge, giving a compact, interpretable signature of meta-adaptation. Code, checkpoints and WandB logs are released.
- Abstract(参考訳): 大規模な言語モデルは強力だが費用がかかる。
メタラーニングによって、小言語モデルの事前学習がより良く、より解釈可能になるかどうかを問う。
我々は,サブセットメイクLMプリトレーニングと一階のMAMLを統合し,LLamaスタイルのデコーダのみのモデル(11M-570Mparams)を4つ生成し,多くの設定や実世界のアプリケーションで基本的なNLPタスクで評価する。
バニラ訓練との比較, 私たちのモデル
(i)同じ損失を1.6倍早く達成する。
(ii) 等演算下での多言語Universal NER上でのF1の改善
(iii) トレーニングのダイナミクスを読みやすくする: まず、ネットワークの表現がファンアウト("diversify")、その後、小さな共有サブスペース("compress")に崩壊する。
この2段階のシフトは、有効ランク曲線とアテンションヘッドエントロピーの両方において上昇と低下として現れる。
同じ曲線は、最も早く特殊化され、後に再収束し、コンパクトで解釈可能なメタ適応のシグネチャを与える。
コード、チェックポイント、WandBログがリリースされる。
関連論文リスト
- Pretraining Language Models to Ponder in Continuous Space [50.52734567589996]
単一のトークン生成ステップ内で,前処理を繰り返し呼び出すことによって,この思考プロセスを言語モデルに導入する。
人間のアノテーションを使わずに、自己教師付き学習を通じて、この方法でモデルを学習できることが示される。
論文 参考訳(メタデータ) (2025-05-27T03:47:33Z) - T1: Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z) - Neural Metamorphosis [72.88137795439407]
本稿では,ニューラル・メタモルファス(NeuMeta)と呼ばれる,自己変形可能なニューラルネットワークの構築を目的とした新たな学習パラダイムを提案する。
NeuMetaはニューラルネットワークの連続重み多様体を直接学習する。
75%の圧縮速度でもフルサイズの性能を維持する。
論文 参考訳(メタデータ) (2024-10-10T14:49:58Z) - Evolving Subnetwork Training for Large Language Models [19.54861230097017]
我々は、新しいトレーニングパラダイム、Evolving Subnetwork Training (EST)を提案する。
ESTサンプルは、大きな言語モデルのレイヤから、そして各レイヤで一般的に使用されるモジュールから作成される。
GPT2モデルのトレーニングとTinyLlamaモデルのトレーニングにESTを適用した結果,GPT2の26.7%のFLOPとTinyLlamaの25.0%の削減を実現した。
論文 参考訳(メタデータ) (2024-06-11T05:44:56Z) - Why Larger Language Models Do In-context Learning Differently? [12.554356517949785]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)の重要な能力を備えた、AIの強力なツールとして登場した。
最近の謎の観測では、異なるスケールのモデルが異なるICLの挙動を持つ可能性がある。
論文 参考訳(メタデータ) (2024-05-30T01:11:35Z) - When Attention Collapses: How Degenerate Layers in LLMs Enable Smaller, Stronger Models [61.363259848264725]
Inherituneは、より小さく、より効率的な言語モデルを構築するための、シンプルで効果的なトレーニングレシピである。
Inherituneのトレーニングしたモデルは、レイヤーが大幅に少ないにもかかわらず、より大きなモデルにマッチしたり、性能を上回ります。
論文 参考訳(メタデータ) (2024-04-12T17:53:34Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Mini-Model Adaptation: Efficiently Extending Pretrained Models to New
Languages via Aligned Shallow Training [36.5936227129021]
トランスフォーマー本体を凍結させながら、新しい組込みを学習することで、事前訓練されたマスケッド言語モデルを新しい言語に拡張することができる。
我々は,大容量モデルのパラメータのごく一部から浅いミニモデルを構築する計算効率の代替モデルであるミニモデル適応を提案する。
新しい言語固有の埋め込みは、ミニモデル上で効率的に訓練され、高速な言語間移動のために整列した大きなモデルにプラグインされる。
論文 参考訳(メタデータ) (2022-12-20T18:17:28Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。