論文の概要: Trained Transformer Classifiers Generalize and Exhibit Benign Overfitting In-Context
- arxiv url: http://arxiv.org/abs/2410.01774v1
- Date: Wed, 2 Oct 2024 17:30:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 15:24:19.003213
- Title: Trained Transformer Classifiers Generalize and Exhibit Benign Overfitting In-Context
- Title(参考訳): 教師付き変圧器分類器 : 文脈に適合するベニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグ
- Authors: Spencer Frei, Gal Vardi,
- Abstract要約: 線形回帰タスクにおいて、線形変圧器がランダムなインスタンス上で事前学習されている場合、通常の最小二乗法と同様のアルゴリズムを用いて予測を行うことを示す。
いくつかの設定では、これらの訓練されたトランスフォーマーは「コンテキスト内の良性オーバーフィット」を示すことができる。
- 参考スコア(独自算出の注目度): 25.360386832940875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have the capacity to act as supervised learning algorithms: by properly encoding a set of labeled training ("in-context") examples and an unlabeled test example into an input sequence of vectors of the same dimension, the forward pass of the transformer can produce predictions for that unlabeled test example. A line of recent work has shown that when linear transformers are pre-trained on random instances for linear regression tasks, these trained transformers make predictions using an algorithm similar to that of ordinary least squares. In this work, we investigate the behavior of linear transformers trained on random linear classification tasks. Via an analysis of the implicit regularization of gradient descent, we characterize how many pre-training tasks and in-context examples are needed for the trained transformer to generalize well at test-time. We further show that in some settings, these trained transformers can exhibit "benign overfitting in-context": when in-context examples are corrupted by label flipping noise, the transformer memorizes all of its in-context examples (including those with noisy labels) yet still generalizes near-optimally for clean test examples.
- Abstract(参考訳): トランスフォーマーは教師付き学習アルゴリズムとして機能する能力を持つ: ラベル付きトレーニング("in-context")例とラベルなしテスト例のセットを同じ次元のベクトルの入力シーケンスに適切にエンコードすることで、トランスフォーマーの前方通過は、ラベルなしテスト例の予測を生成することができる。
最近の研究の行は、線形回帰タスクのランダムなインスタンス上で線形変換器を事前訓練する場合、これらの訓練された変換器は、通常の最小二乗法と同様のアルゴリズムを用いて予測を行うことを示した。
本研究では,ランダムな線形分類タスクを訓練した線形変圧器の挙動について検討する。
勾配降下の暗黙的な正則化を解析することにより、トレーニングされたトランスフォーマーがテスト時によく一般化するために、事前学習タスクや文脈内サンプルがいくつ必要かの特徴付けを行う。
さらに、これらのトレーニングされたトランスフォーマーは、"良質なオーバーフィットインコンテクスト"を表現可能であることも示している。インコンテクストの例がラベルのフリップノイズによって破損した場合、トランスフォーマーは、そのインコンテクストの例(ノイズのあるラベルを含む)をすべて記憶するが、クリーンなテスト例では、ほぼ最適に一般化する。
関連論文リスト
- One-Layer Transformer Provably Learns One-Nearest Neighbor In Context [48.4979348643494]
本研究では、1層変圧器が1層近傍の規則を学習する能力について検討する。
単一のソフトマックスアテンション層は、ワンアレスト隣人のように振る舞うことをうまく学ぶことができる。
論文 参考訳(メタデータ) (2024-11-16T16:12:42Z) - On the Training Convergence of Transformers for In-Context Classification [20.980349268151546]
本研究は、文脈内分類タスクのための変圧器の訓練力学を理論的に研究することを目的とする。
本研究では, ある仮定の下でのガウス混合の文脈内分類において, 勾配勾配から学習した単層変圧器が線形速度で大域的最適モデルに収束することを示した。
論文 参考訳(メタデータ) (2024-10-15T16:57:14Z) - Algorithmic Capabilities of Random Transformers [49.73113518329544]
埋め込み層のみを最適化したランダムトランスフォーマーによって、どのような関数が学習できるかを検討する。
これらのランダムなトランスフォーマーは、幅広い意味のあるアルゴリズムタスクを実行することができる。
以上の結果から,これらのモデルが訓練される前にも,アルゴリズム能力がトランスフォーマに存在することが示唆された。
論文 参考訳(メタデータ) (2024-10-06T06:04:23Z) - In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-08-19T16:47:46Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Trained Transformers Learn Linear Models In-Context [39.56636898650966]
トランスフォーマーとしての注意に基づくニューラルネットワークは、意図的学習(ICL)を示す顕著な能力を示した
線形回帰問題のランダムな例に対する変圧器の訓練において、これらのモデルの予測は通常の正方形の非線形性を模倣することを示した。
論文 参考訳(メタデータ) (2023-06-16T15:50:03Z) - Transformers learn to implement preconditioned gradient descent for
in-context learning [41.74394657009037]
いくつかの最近の研究は、変圧器が勾配降下のようなアルゴリズムを実装できることを実証している。
トランスフォーマーは、ランダムな問題インスタンスをトレーニングすることで、そのようなアルゴリズムの実装を学べますか?
注意層が$L$の変圧器では,事前条件付き勾配勾配の反復として$L$を具現化する訓練対象の臨界点が証明される。
論文 参考訳(メタデータ) (2023-06-01T02:35:57Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Pretrained Transformers as Universal Computation Engines [105.00539596788127]
自然言語で事前学習したトランスフォーマーを,最小限の微調整で他のモダリティに一般化する能力について検討する。
本研究では, 数値計算, 視覚, タンパク質折り畳み予測にまたがる様々なシーケンス分類タスクについて, 微調整を行った。
このようなプリトレーニングにより、FPTはこれらのモダリティにゼロショットで一般化することができ、これらのタスクで完全に訓練されたトランスのパフォーマンスと一致します。
論文 参考訳(メタデータ) (2021-03-09T06:39:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。