論文の概要: Provable Data Scaling Law for Meta Learning via Complexity Minimization
- arxiv url: http://arxiv.org/abs/2606.02008v1
- Date: Mon, 01 Jun 2026 10:02:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.778192
- Title: Provable Data Scaling Law for Meta Learning via Complexity Minimization
- Title(参考訳): 複雑度最小化によるメタ学習のための確率的データスケーリング法
- Authors: Kazuto Fukuchi, Ryuichiro Hataya, Kota Matsui,
- Abstract要約: 本稿では,各領域に最も適したダウンストリームモデルの複雑性を評価することにより,表現を学習する複雑性最小化を提案する。
我々のエンドツーエンドの理論分析は、下流回帰による事前学習にまたがって、このフレームワークが、このスケーリングの振る舞いを確実に捉えていることを示している。
既存のメタ学習手法に複雑性正規化を組み込むことで、下流のサンプル効率が一貫して改善されることを実証する。
- 参考スコア(独自算出の注目度): 6.964881957695288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training has become a fundamental paradigm in modern machine learning, with one of its key empirical benefits being reduced downstream sample complexity as the scale of pre-training data increases. However, existing theoretical frameworks for pre-training do not fully explain this phenomenon. In this paper, we introduce complexity minimization, a novel meta-representation learning framework designed to enable theoretical analysis of this scaling behavior, which learns representations by evaluating the downstream model complexity best suited to each domain and minimizing the worst-case such complexity across source domains. Our end-to-end theoretical analysis, spanning pre-training through downstream regression, shows that this framework provably captures this scaling behavior; in particular, we show that the error rate of few-shot adaptation improves as the amount of meta-training data grows. Empirically, we demonstrate that incorporating complexity regularization into existing meta-learning methods consistently improves downstream sample efficiency.
- Abstract(参考訳): 事前学習は、現代の機械学習の基本的なパラダイムとなり、事前学習データの規模が大きくなるにつれて、下流のサンプルの複雑さが減少する経験的メリットの1つとなっている。
しかし、既存の事前学習の理論的な枠組みは、この現象を完全には説明していない。
本稿では,このスケーリング動作の理論的解析を可能にするメタ表現学習フレームワークである複雑性最小化を提案する。このフレームワークは,各ドメインに最も適したダウンストリームモデルの複雑性を評価し,ソースドメイン全体で最悪のケースを最小化することによって,表現を学習する。
我々のエンドツーエンドの理論的分析は、下流回帰による事前学習にまたがって、このフレームワークが、このスケーリングの振る舞いを確実に捉えていることを示し、特に、メタトレーニングデータの量が増加するにつれて、少数ショット適応の誤差率が向上することを示した。
実験により,既存のメタ学習手法に複雑性正規化を組み込むことで,下流のサンプル効率が向上することが実証された。
関連論文リスト
- A Statistical Theory of Contrastive Learning via Approximate Sufficient Statistics [29.162540474549473]
我々はデータ拡張に基づくコントラスト学習を解析するための新しい理論フレームワークを開発した。
我々は,SimCLRなどのコントラスト損失を最小化すれば,ほぼ十分エンコーダが得られることを示す。
論文 参考訳(メタデータ) (2025-03-21T21:07:18Z) - A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops [55.07063067759609]
高品質なデータは大規模な生成モデルのトレーニングには不可欠だが、オンラインで利用可能な実際のデータの膨大な蓄積はほとんど枯渇している。
モデルは、さらなるトレーニングのために独自のデータを生成し、自己消費訓練ループ(STL)を形成する。
一部のモデルは劣化または崩壊するが、他のモデルはこれらの失敗をうまく回避し、理論的な理解にかなりのギャップを残している。
論文 参考訳(メタデータ) (2025-02-26T06:18:13Z) - Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - Simplicity bias and optimization threshold in two-layer ReLU networks [24.43739371803548]
過度なパラメータ化にもかかわらず、ネットワークはトレーニングデータを補間するのではなく、より単純な解へと収束することを示す。
我々の分析は、ニューロンが特定の方向に向かっているいわゆる早期アライメントフェーズに依存しています。
論文 参考訳(メタデータ) (2024-10-03T09:58:57Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - A Unified Generalization Analysis of Re-Weighting and Logit-Adjustment
for Imbalanced Learning [129.63326990812234]
そこで本研究では,データ依存型コンダクタンス(Data-dependent contraction)と呼ばれる手法を提案する。
この技術に加えて、不均衡学習のための微粒な一般化境界が確立され、再重み付けとロジット調整の謎を明らかにするのに役立つ。
論文 参考訳(メタデータ) (2023-10-07T09:15:08Z) - Uncovering mesa-optimization algorithms in Transformers [61.06055590704677]
いくつかの自己回帰モデルは、入力シーケンスが処理されたときに学習でき、パラメータの変更を受けずに、それを行うように明示的に訓練されていない。
我々は,新しい入力が明らかになったときにモデルを調整するための補助学習アルゴリズムが,標準の次トーケン予測誤差最小化によって生まれることを示す。
本研究は、自己回帰損失最小化の産物としてコンテキスト内学習を説明し、新しい最適化ベースのトランスフォーマー層の設計を通知する。
論文 参考訳(メタデータ) (2023-09-11T22:42:50Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。