論文の概要: How Many Pretraining Tasks Are Needed for In-Context Learning of Linear
Regression?
- arxiv url: http://arxiv.org/abs/2310.08391v1
- Date: Thu, 12 Oct 2023 15:01:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 09:03:05.089988
- Title: How Many Pretraining Tasks Are Needed for In-Context Learning of Linear
Regression?
- Title(参考訳): 線形回帰の文脈学習に必要な事前学習課題はいくつあるか?
- Authors: Jingfeng Wu, Difan Zou, Zixiang Chen, Vladimir Braverman, Quanquan Gu,
Peter L. Bartlett
- Abstract要約: 様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。
線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
- 参考スコア(独自算出の注目度): 98.44739214880573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers pretrained on diverse tasks exhibit remarkable in-context
learning (ICL) capabilities, enabling them to solve unseen tasks solely based
on input contexts without adjusting model parameters. In this paper, we study
ICL in one of its simplest setups: pretraining a linearly parameterized
single-layer linear attention model for linear regression with a Gaussian
prior. We establish a statistical task complexity bound for the attention model
pretraining, showing that effective pretraining only requires a small number of
independent tasks. Furthermore, we prove that the pretrained model closely
matches the Bayes optimal algorithm, i.e., optimally tuned ridge regression, by
achieving nearly Bayes optimal risk on unseen tasks under a fixed context
length. These theoretical findings complement prior experimental research and
shed light on the statistical foundations of ICL.
- Abstract(参考訳): 様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示し、モデルパラメータを調整することなく、入力コンテキストのみに基づいて見えないタスクを解決できる。
本稿では,線形パラメータ化単一層線形アテンションモデルをガウス先行の線形回帰のために事前学習する,最も簡単な構成の1つとしてICLについて検討する。
注意モデル事前学習に縛られた統計的タスクの複雑性を確立し、有効事前学習には少数の独立したタスクしか必要としないことを示す。
さらに,事前学習したモデルがベイズ最適アルゴリズム,すなわち最適調整リッジ回帰と密接に一致し,一定のコンテキスト長の未学習タスクに対するベイズ最適リスクをほぼ達成できることを証明した。
これらの理論的な発見は、以前の実験研究を補完し、iclの統計的基礎に光を当てた。
関連論文リスト
- Initialization Matters for Adversarial Transfer Learning [65.58440557481316]
トランスファーラーニングにおけるプレトレイン・フィネチングのパラダイムの普及に伴い、下流タスクのロバスト性は重要な問題となっている。
直交線形探索により得られる重みで線形頭部を初期化する対向微調整のためのロバスト線形初期化(RoLI)を提案する。
5つの異なる画像分類データセットにおいて,RoLIの有効性を実証し,新しい最先端結果を得た。
論文 参考訳(メタデータ) (2023-12-10T00:51:05Z) - Self-Influence Guided Data Reweighting for Language Model Pre-training [46.57714637505164]
言語モデル (LM) は、様々なNLPタスクのためのモデルを開発するためのデフォルトの出発点となっている。
コーパス内のすべてのデータサンプルは、LM事前トレーニング中に同等に重要視される。
データの関連性や品質のレベルが異なるため、すべてのデータサンプルと同等の重要性が最適な選択ではないかもしれない。
本稿では,サンプルの重要度と事前学習の指標として自己影響(SI)スコアを活用することで,サンプルを共同で重み付けするPreSenceを提案する。
論文 参考訳(メタデータ) (2023-11-02T01:00:46Z) - An Analysis of Initial Training Strategies for Exemplar-Free
Class-Incremental Learning [36.619804184427245]
CIL(Class-Incremental Learning)は、データストリームから分類モデルを構築することを目的としている。
破滅的な忘れ物のため、過去のクラスの例を保存できない場合、CILは特に困難である。
大量のデータに対する自己管理的な方法で事前訓練されたモデルの使用は、最近勢いを増している。
論文 参考訳(メタデータ) (2023-08-22T14:06:40Z) - Pretraining task diversity and the emergence of non-Bayesian in-context
learning for regression [31.950737940558984]
事前訓練されたトランスフォーマーは、文脈内学習(ICL)の顕著な能力を示す
ICLは、事前トレーニング中に見られるタスクとは大きく異なる、基本的に$textitnew$タスクを解決できますか?
論文 参考訳(メタデータ) (2023-06-26T21:05:20Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Training Data Subset Selection for Regression with Controlled
Generalization Error [19.21682938684508]
そこで我々は,データサブセット選択のための効率的な大規模化最小化アルゴリズムを開発した。
SELCONは、現在の最先端技術よりも精度と効率を効果的に交換する。
論文 参考訳(メタデータ) (2021-06-23T16:03:55Z) - Active Learning for Sequence Tagging with Deep Pre-trained Models and
Bayesian Uncertainty Estimates [52.164757178369804]
自然言語処理のためのトランスファーラーニングとアクティブラーニングの最近の進歩は、必要なアノテーション予算を大幅に削減する可能性を開く。
我々は,様々なベイズ不確実性推定手法とモンテカルロドロップアウトオプションの実験的研究を,アクティブ学習フレームワークで実施する。
また, 能動学習中にインスタンスを取得するためには, 完全サイズのトランスフォーマーを蒸留版に置き換えることにより, 計算性能が向上することを示した。
論文 参考訳(メタデータ) (2021-01-20T13:59:25Z) - Meta Learning MPC using Finite-Dimensional Gaussian Process
Approximations [0.9539495585692008]
制御における学習手法の実践的適用性を阻害する2つの重要な要因は、その計算複雑性と、目に見えない条件に対する限定的な一般化能力である。
本稿では,従来のタスクからのデータを活用するシステムモデルを学習することにより,適応型モデル予測制御のためのメタラーニング手法を提案する。
論文 参考訳(メタデータ) (2020-08-13T15:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。