Fugu-MT 論文翻訳(概要): On the Training Convergence of Transformers for In-Context Classification

論文の概要: On the Training Convergence of Transformers for In-Context Classification

arxiv url: http://arxiv.org/abs/2410.11778v1
Date: Tue, 15 Oct 2024 16:57:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:35.900675
Title: On the Training Convergence of Transformers for In-Context Classification
Title（参考訳）: インコンテキスト分類のための変圧器の訓練収束性について
Authors: Wei Shen, Ruida Zhou, Jing Yang, Cong Shen,
Abstract要約: 本研究は、文脈内分類タスクのための変圧器の訓練力学を理論的に研究することを目的とする。本研究では, ある仮定の下でのガウス混合の文脈内分類において, 勾配勾配から学習した単層変圧器が線形速度で大域的最適モデルに収束することを示した。
参考スコア（独自算出の注目度）: 20.980349268151546
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While transformers have demonstrated impressive capacities for in-context learning (ICL) in practice, theoretical understanding of the underlying mechanism enabling transformers to perform ICL is still in its infant stage. This work aims to theoretically study the training dynamics of transformers for in-context classification tasks. We demonstrate that, for in-context classification of Gaussian mixtures under certain assumptions, a single-layer transformer trained via gradient descent converges to a globally optimal model at a linear rate. We further quantify the impact of the training and testing prompt lengths on the ICL inference error of the trained transformer. We show that when the lengths of training and testing prompts are sufficiently large, the prediction of the trained transformer approaches the Bayes-optimal classifier. Experimental results corroborate the theoretical findings.
Abstract（参考訳）: トランスフォーマーは、実際のICL(In-context Learning)において印象的な能力を示してきたが、トランスフォーマーがICLの実行を可能にするメカニズムの理論的な理解は、まだ幼児期である。本研究は、文脈内分類タスクのための変圧器の訓練力学を理論的に研究することを目的とする。本研究では, ある仮定の下でのガウス混合の文脈内分類において, 勾配勾配から学習した単層変圧器が線形速度で大域的最適モデルに収束することを示した。さらに、トレーニングとテストのプロンプト長がトレーニングされたトランスのICL推論誤差に与える影響を定量化する。トレーニングとテストのプロンプトの長さが十分に大きい場合、トレーニングされたトランスフォーマーの予測がベイズ最適分類器に近づくことを示す。実験結果は理論的な結果と相関する。

関連論文リスト

Transformers Don't In-Context Learn Least Squares Regression [5.648229654902264]
In-context Learning (ICL) は、大規模な事前学習型トランスフォーマーの強力な能力として登場した。我々は、トランスフォーマーが推論時に学習をどのように実装するかを研究する。 ICLの行動形成におけるプレトレーニングコーパスの役割を強調した。
論文参考訳（メタデータ） (2025-07-13T01:09:26Z)
Born a Transformer -- Always a Transformer? [57.37263095476691]
We study a family of $textitretrieval$ and $textitcopying$ tasks inspired by Liu et al。我々は、事前訓練されたモデルがクエリトークンの左(アンチインダクション)よりも右(インダクション)へのトークンの検索が優れているような、$textitinduction-versus-anti-induction$ asymmetricを観察する。力学解析により、この非対称性は、事前学習された変圧器内の誘導の強度と反誘導回路の強度の違いに関係していることが明らかになった。
論文参考訳（メタデータ） (2025-05-27T21:36:50Z)
Transformer Learns Optimal Variable Selection in Group-Sparse Classification [14.760685658938787]
群疎性」を持つ古典的統計モデルを学ぶためにトランスフォーマーをどのように訓練するかのケーススタディを提示する。理論的には、勾配降下により訓練された一層変圧器は、注意機構を正確に利用して変数を選択することができる。また, 予測精度を向上させるために, サンプル数に制限のある1層変圧器を新しい下流タスクに適用できることを実証した。
論文参考訳（メタデータ） (2025-04-11T15:39:44Z)
Transformers are Deep Optimizers: Provable In-Context Learning for Deep Model Training [11.940454262201161]
In-context Learning (ICL) の深層モデルの学習過程をシミュレートする能力について検討する。具体的には、$(2N+4)L$層変換器を明示的に構成し、$L$勾配降下ステップをシミュレートする。本研究では,3層,4層,6層ニューラルネットワークの合成データセットについて検証した。
論文参考訳（メタデータ） (2024-11-25T16:32:11Z)
Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文参考訳（メタデータ） (2024-10-22T21:30:01Z)
Trained Transformer Classifiers Generalize and Exhibit Benign Overfitting In-Context [25.360386832940875]
線形回帰タスクにおいて、線形変圧器がランダムなインスタンス上で事前学習されている場合、通常の最小二乗法と同様のアルゴリズムを用いて予測を行うことを示す。いくつかの設定では、これらの訓練されたトランスフォーマーは「コンテキスト内の良性オーバーフィット」を示すことができる。
論文参考訳（メタデータ） (2024-10-02T17:30:21Z)
Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文参考訳（メタデータ） (2024-09-28T13:24:11Z)
How Do Nonlinear Transformers Learn and Generalize in In-Context Learning? [82.51626700527837]
トランスフォーマーベースの大規模言語モデルでは、トレーニング済みのモデルが微調整なしで新しいタスクを処理できるような、コンテキスト内学習機能が印象的だった。我々は、TransformerがICLを実現する方法の仕組みが、Transformerにおけるトレーニング問題の技術的課題にどのように貢献するかを分析する。
論文参考訳（メタデータ） (2024-02-23T21:07:20Z)
Transformers as Decision Makers: Provable In-Context Reinforcement Learning via Supervised Pretraining [25.669038513039357]
本稿では,テキスト内強化学習のための教師付き事前学習を理論的に分析する枠組みを提案する。 ReLUに着目した変換器は、最適に近いオンライン強化学習アルゴリズムを効率的に近似できることを示す。
論文参考訳（メタデータ） (2023-10-12T17:55:02Z)
Trained Transformers Learn Linear Models In-Context [39.56636898650966]
トランスフォーマーとしての注意に基づくニューラルネットワークは、意図的学習(ICL)を示す顕著な能力を示した線形回帰問題のランダムな例に対する変圧器の訓練において、これらのモデルの予測は通常の正方形の非線形性を模倣することを示した。
論文参考訳（メタデータ） (2023-06-16T15:50:03Z)
Transformers as Statisticians: Provable In-Context Learning with In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文参考訳（メタデータ） (2023-06-07T17:59:31Z)
Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文参考訳（メタデータ） (2022-12-15T09:21:21Z)
Scalable Transformers for Neural Machine Translation [86.4530299266897]
トランスフォーマーは、そのキャパシティとシーケンス生成の並列トレーニングのため、ニューラルネットワーク翻訳(NMT)で広く採用されている。本稿では,異なるスケールのサブトランスフォーマーを自然に含み,パラメータを共有できる,スケーラブルなトランスフォーマーを提案する。スケーラブルトランスフォーマーのトレーニングの難しさに対処する3段階のトレーニングスキームが提案されている。
論文参考訳（メタデータ） (2021-06-04T04:04:10Z)
Pretrained Transformers as Universal Computation Engines [105.00539596788127]
自然言語で事前学習したトランスフォーマーを,最小限の微調整で他のモダリティに一般化する能力について検討する。本研究では, 数値計算, 視覚, タンパク質折り畳み予測にまたがる様々なシーケンス分類タスクについて, 微調整を行った。このようなプリトレーニングにより、FPTはこれらのモダリティにゼロショットで一般化することができ、これらのタスクで完全に訓練されたトランスのパフォーマンスと一致します。
論文参考訳（メタデータ） (2021-03-09T06:39:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。