論文の概要: Trained Transformer Classifiers Generalize and Exhibit Benign Overfitting In-Context
- arxiv url: http://arxiv.org/abs/2410.01774v1
- Date: Wed, 02 Oct 2024 17:30:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 15:25:25.340611
- Title: Trained Transformer Classifiers Generalize and Exhibit Benign Overfitting In-Context
- Title(参考訳): 教師付き変圧器分類器 : 文脈に適合するベニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグ
- Authors: Spencer Frei, Gal Vardi,
- Abstract要約: 線形回帰タスクにおいて、線形変圧器がランダムなインスタンス上で事前学習されている場合、通常の最小二乗法と同様のアルゴリズムを用いて予測を行うことを示す。
いくつかの設定では、これらの訓練されたトランスフォーマーは「コンテキスト内の良性オーバーフィット」を示すことができる。
- 参考スコア(独自算出の注目度): 25.360386832940875
- License:
- Abstract: Transformers have the capacity to act as supervised learning algorithms: by properly encoding a set of labeled training ("in-context") examples and an unlabeled test example into an input sequence of vectors of the same dimension, the forward pass of the transformer can produce predictions for that unlabeled test example. A line of recent work has shown that when linear transformers are pre-trained on random instances for linear regression tasks, these trained transformers make predictions using an algorithm similar to that of ordinary least squares. In this work, we investigate the behavior of linear transformers trained on random linear classification tasks. Via an analysis of the implicit regularization of gradient descent, we characterize how many pre-training tasks and in-context examples are needed for the trained transformer to generalize well at test-time. We further show that in some settings, these trained transformers can exhibit "benign overfitting in-context": when in-context examples are corrupted by label flipping noise, the transformer memorizes all of its in-context examples (including those with noisy labels) yet still generalizes near-optimally for clean test examples.
- Abstract(参考訳): トランスフォーマーは教師付き学習アルゴリズムとして機能する能力を持つ: ラベル付きトレーニング("in-context")例とラベルなしテスト例のセットを同じ次元のベクトルの入力シーケンスに適切にエンコードすることで、トランスフォーマーの前方通過は、ラベルなしテスト例の予測を生成することができる。
最近の研究の行は、線形回帰タスクのランダムなインスタンス上で線形変換器を事前訓練する場合、これらの訓練された変換器は、通常の最小二乗法と同様のアルゴリズムを用いて予測を行うことを示した。
本研究では,ランダムな線形分類タスクを訓練した線形変圧器の挙動について検討する。
勾配降下の暗黙的な正則化を解析することにより、トレーニングされたトランスフォーマーがテスト時によく一般化するために、事前学習タスクや文脈内サンプルがいくつ必要かの特徴付けを行う。
さらに、これらのトレーニングされたトランスフォーマーは、"良質なオーバーフィットインコンテクスト"を表現可能であることも示している。インコンテクストの例がラベルのフリップノイズによって破損した場合、トランスフォーマーは、そのインコンテクストの例(ノイズのあるラベルを含む)をすべて記憶するが、クリーンなテスト例では、ほぼ最適に一般化する。
関連論文リスト
- Understanding Transformers via N-gram Statistics [4.713817702376468]
トランスフォーマーをベースとした大言語モデル(LLM)は言語に非常に熟練しているが、その動作の正確な理解はいまだに解明されていない。
本稿では, 単純なN-gram統計値から得られる関数の族を考えることにより, この方向への第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-06-30T22:18:49Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Linear Transformers are Versatile In-Context Learners [21.444440482020994]
任意の線形変圧器が暗黙の線形モデルを維持していることを証明し、事前条件付き勾配勾配の変種として解釈できる。
また、異なるレベルのノイズでトレーニングデータが破損する難易度シナリオにおける線形変圧器の使用についても検討する。
論文 参考訳(メタデータ) (2024-02-21T23:45:57Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Trained Transformers Learn Linear Models In-Context [39.56636898650966]
トランスフォーマーとしての注意に基づくニューラルネットワークは、意図的学習(ICL)を示す顕著な能力を示した
線形回帰問題のランダムな例に対する変圧器の訓練において、これらのモデルの予測は通常の正方形の非線形性を模倣することを示した。
論文 参考訳(メタデータ) (2023-06-16T15:50:03Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Transformers learn to implement preconditioned gradient descent for
in-context learning [41.74394657009037]
いくつかの最近の研究は、変圧器が勾配降下のようなアルゴリズムを実装できることを実証している。
トランスフォーマーは、ランダムな問題インスタンスをトレーニングすることで、そのようなアルゴリズムの実装を学べますか?
注意層が$L$の変圧器では,事前条件付き勾配勾配の反復として$L$を具現化する訓練対象の臨界点が証明される。
論文 参考訳(メタデータ) (2023-06-01T02:35:57Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Scalable Transformers for Neural Machine Translation [86.4530299266897]
トランスフォーマーは、そのキャパシティとシーケンス生成の並列トレーニングのため、ニューラルネットワーク翻訳(NMT)で広く採用されている。
本稿では,異なるスケールのサブトランスフォーマーを自然に含み,パラメータを共有できる,スケーラブルなトランスフォーマーを提案する。
スケーラブルトランスフォーマーのトレーニングの難しさに対処する3段階のトレーニングスキームが提案されている。
論文 参考訳(メタデータ) (2021-06-04T04:04:10Z) - Pretrained Transformers as Universal Computation Engines [105.00539596788127]
自然言語で事前学習したトランスフォーマーを,最小限の微調整で他のモダリティに一般化する能力について検討する。
本研究では, 数値計算, 視覚, タンパク質折り畳み予測にまたがる様々なシーケンス分類タスクについて, 微調整を行った。
このようなプリトレーニングにより、FPTはこれらのモダリティにゼロショットで一般化することができ、これらのタスクで完全に訓練されたトランスのパフォーマンスと一致します。
論文 参考訳(メタデータ) (2021-03-09T06:39:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。