論文の概要: Optimal Representation Size: High-Dimensional Analysis of Pretraining and Linear Probing
- arxiv url: http://arxiv.org/abs/2605.20105v1
- Date: Tue, 19 May 2026 16:56:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.539579
- Title: Optimal Representation Size: High-Dimensional Analysis of Pretraining and Linear Probing
- Title(参考訳): 最適表現サイズ:事前学習と線形探索の高次元解析
- Authors: Valentina Njaradi, Clémentine Dominé, Rachel Swanson, Marco Mondelli, Andrew Saxe,
- Abstract要約: 限られたデータから一般化することを学ぶことは、人工システムと生物学的システムの両方にとって根本的な課題である。
本稿では, 構造抽出を主成分分析として定式化するプロセスの解析モデルを提案する。
我々は,表現の次元性,ラベル付きサンプルサイズ,タスクアライメントへの依存性を示す訓練および一般化誤差の正確な表現を導出する。
- 参考スコア(独自算出の注目度): 20.181398321709636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning to generalise from limited data is a fundamental challenge for both artificial and biological systems. A common strategy is to extract reusable structure from abundant unlabelled data, enabling efficient adaptation to new tasks from limited labelled data. This two-stage paradigm is now standard in modern training pipelines, where pretraining is followed by fine-tuning or linear probing. We provide an analytical model of this process: structure extraction is formalized as principal component analysis on unlabelled data, and downstream learning as linear regression on a separate labelled dataset. In the high-dimensional regime, we derive exact expressions for training and generalisation error showcasing their dependence on representation dimensionality, unlabelled and labelled sample sizes, and task alignment. Our results show that pretrained representations strongly influence downstream generalisation, and we characterize the optimal representation size as a function of task parameters: with abundant pretraining data but scarce downstream data, maximally compressed representations are optimal, whereas with limited pretraining data, higher-dimensional representations generalise better. Furthermore, we establish an exact trade-off between pretraining and supervision, quantifying how much unlabelled data is required to replace a single labelled sample. Beyond our idealised model, we observe similar phenomenology in autoencoders and pretrained LLMs. Altogether, we highlight that optimising representation size is critical, giving conditions for when compression during pretraining improves generalisation.
- Abstract(参考訳): 限られたデータから一般化することを学ぶことは、人工システムと生物学的システムの両方にとって根本的な課題である。
一般的な戦略は、豊富なラベル付きデータから再利用可能な構造を抽出し、ラベル付きデータから新しいタスクへの効率的な適応を可能にすることである。
この2段階のパラダイムは、現在のトレーニングパイプラインでは標準となっている。
構造抽出は非ラベル付きデータの主成分分析として形式化され、下流学習は別個のラベル付きデータセット上で線形回帰として定式化される。
高次元状態下では、表現の次元性、ラベル付きサンプルサイズ、タスクアライメントへの依存を示す訓練と一般化の誤差の正確な表現を導出する。
その結果,事前学習した表現は下流の一般化に強く影響し,タスクパラメータの関数として最適な表現サイズを特徴付けることが明らかとなった。
さらに、事前学習と監督の正確なトレードオフを確立し、単一のラベル付きサンプルを置き換えるのに、どの程度の不正なデータが必要とされるかを定量化する。
理想化されたモデル以外では、オートエンコーダや事前学習されたLLMで同様の現象を観察する。
また,事前学習時の圧縮が一般化する条件を与えるため,表現サイズを最適化することが重要であることも強調した。
関連論文リスト
- RL-Selector: Reinforcement Learning-Guided Data Selection via Redundancy Assessment [10.284993431741377]
サンプル間の関係に基づいてサンプル冗長性を定量化する,エプシロン・サンプル被覆の概念を導入する。
我々は、強化学習プロセスとしてデータ選択を再構成し、RLセレクタを提案する。
我々の手法は、既存の最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-06-26T06:28:56Z) - Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - Understanding Optimal Feature Transfer via a Fine-Grained Bias-Variance Analysis [10.79615566320291]
転送学習パラダイムでは、データ豊富な事前学習段階で有用な表現(または特徴)を学習し、事前訓練された表現を使用して、データスカース下流タスクのモデルパフォーマンスを改善する。
そこで本研究では,下流性能の最適化を目的としたトランスファーラーニングについて検討する。
論文 参考訳(メタデータ) (2024-04-18T19:33:55Z) - The Trade-off between Universality and Label Efficiency of
Representations from Contrastive Learning [32.15608637930748]
2つのデシダラタの間にはトレードオフがあることを示し、同時に両方を達成できない可能性があることを示す。
我々は、理論データモデルを用いて分析を行い、より多様な事前学習データにより、異なるタスクに対してより多様な機能が得られる一方で、タスク固有の機能に重点を置いていないことを示す。
論文 参考訳(メタデータ) (2023-02-28T22:14:33Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Improved Fine-tuning by Leveraging Pre-training Data: Theory and
Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。
近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。
本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文 参考訳(メタデータ) (2021-11-24T06:18:32Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。