論文の概要: Bypassing the Exponential Dependency: Looped Transformers Efficiently Learn In-context by Multi-step Gradient Descent
- arxiv url: http://arxiv.org/abs/2410.11268v1
- Date: Tue, 15 Oct 2024 04:44:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:03:38.645962
- Title: Bypassing the Exponential Dependency: Looped Transformers Efficiently Learn In-context by Multi-step Gradient Descent
- Title(参考訳): 指数依存をバイパスする:多段階グラディエント・ディグネッセントによるインコンテキスト学習のループ変換器
- Authors: Bo Chen, Xiaoyu Li, Yingyu Liang, Zhenmei Shi, Zhao Song,
- Abstract要約: 線形ループ変換器は、コンテキスト内学習において、多段階勾配勾配を効率よく実装できることを示す。
この結果から,入力データが一定条件数である場合,$n = O(d)$であれば,線形ループ変換器の誤差は小さくなることがわかった。
- 参考スコア(独自算出の注目度): 26.764893400499354
- License:
- Abstract: In-context learning has been recognized as a key factor in the success of Large Language Models (LLMs). It refers to the model's ability to learn patterns on the fly from provided in-context examples in the prompt during inference. Previous studies have demonstrated that the Transformer architecture used in LLMs can implement a single-step gradient descent update by processing in-context examples in a single forward pass. Recent work has further shown that, during in-context learning, a looped Transformer can implement multi-step gradient descent updates in forward passes. However, their theoretical results require an exponential number of in-context examples, $n = \exp(\Omega(T))$, where $T$ is the number of loops or passes, to achieve a reasonably low error. In this paper, we study linear looped Transformers in-context learning on linear vector generation tasks. We show that linear looped Transformers can implement multi-step gradient descent efficiently for in-context learning. Our results demonstrate that as long as the input data has a constant condition number, e.g., $n = O(d)$, the linear looped Transformers can achieve a small error by multi-step gradient descent during in-context learning. Furthermore, our preliminary experiments validate our theoretical analysis. Our findings reveal that the Transformer architecture possesses a stronger in-context learning capability than previously understood, offering new insights into the mechanisms behind LLMs and potentially guiding the better design of efficient inference algorithms for LLMs.
- Abstract(参考訳): In-context Learningは、Large Language Models(LLMs)の成功の重要な要因として認識されている。
これは、推論中にプロンプトで提供されるインコンテキストの例から、モデルがオンザフライでパターンを学習する能力を指す。
これまでの研究で、LLMで使用されているTransformerアーキテクチャは、単一のフォワードパスでコンテキスト内例を処理することで、単一ステップの勾配勾配更新を実装できることが示されている。
近年の研究では、コンテキスト内学習中にループ変換器が前方パスで多段階勾配降下更新を実装できることが示されている。
しかし、それらの理論的な結果は指数関数的なインコンテキストの例($n = \exp(\Omega(T))$)を必要とする。
本稿では,線形ベクトル生成タスクにおける線形ループ変換器のコンテキスト内学習について検討する。
線形ループ変換器は、コンテキスト内学習において、多段階勾配勾配を効率よく実装できることを示す。
この結果から,入力データに一定の条件数,例えば$g , $n = O(d)$ がある限り,線形ループ変換器はコンテキスト内学習において,複数ステップの勾配勾配で小さな誤差を発生させることができることがわかった。
さらに,我々の予備実験は,我々の理論解析を検証した。
この結果から,Transformer アーキテクチャは従来理解されていたよりもコンテキスト内学習能力が強く,LCM の背後にあるメカニズムの新たな洞察や,LCM の効率的な推論アルゴリズムの設計の指針となる可能性が示唆された。
関連論文リスト
- On the Role of Depth and Looping for In-Context Learning with Task Diversity [69.4145579827826]
多様なタスクを伴う線形回帰のための文脈内学習について検討する。
We show that multilayer Transformer is not robust to even distributional shifts as $O(e-L)$ in Wasserstein distance。
論文 参考訳(メタデータ) (2024-10-29T03:27:56Z) - Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - On Mesa-Optimization in Autoregressively Trained Transformers: Emergence and Capability [34.43255978863601]
いくつかの説では、トランスフォーマーはオートレアトレーニング中にmesa-optimizerを学習する。
データモーメントに関する強い仮定は、学習されたメザ最適化器が実行可能な十分な必要条件であることを示す。
論文 参考訳(メタデータ) (2024-05-27T05:41:06Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - What learning algorithm is in-context learning? Investigations with
linear models [87.91612418166464]
本稿では,トランスフォーマーに基づくインコンテキスト学習者が標準学習アルゴリズムを暗黙的に実装する仮説について検討する。
訓練された文脈内学習者は、勾配降下、隆起回帰、および正確な最小二乗回帰によって計算された予測値と密に一致していることを示す。
文脈内学習者がこれらの予測器とアルゴリズム的特徴を共有するという予備的証拠。
論文 参考訳(メタデータ) (2022-11-28T18:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。