論文の概要: On the Role of Depth and Looping for In-Context Learning with Task Diversity
- arxiv url: http://arxiv.org/abs/2410.21698v1
- Date: Tue, 29 Oct 2024 03:27:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:41:43.038646
- Title: On the Role of Depth and Looping for In-Context Learning with Task Diversity
- Title(参考訳): タスクの多様性を考慮したインテクスト学習における深さとループの役割について
- Authors: Khashayar Gatmiry, Nikunj Saunshi, Sashank J. Reddi, Stefanie Jegelka, Sanjiv Kumar,
- Abstract要約: 多様なタスクを伴う線形回帰のための文脈内学習について検討する。
We show that multilayer Transformer is not robust to even distributional shifts as $O(e-L)$ in Wasserstein distance。
- 参考スコア(独自算出の注目度): 69.4145579827826
- License:
- Abstract: The intriguing in-context learning (ICL) abilities of deep Transformer models have lately garnered significant attention. By studying in-context linear regression on unimodal Gaussian data, recent empirical and theoretical works have argued that ICL emerges from Transformers' abilities to simulate learning algorithms like gradient descent. However, these works fail to capture the remarkable ability of Transformers to learn multiple tasks in context. To this end, we study in-context learning for linear regression with diverse tasks, characterized by data covariance matrices with condition numbers ranging from $[1, \kappa]$, and highlight the importance of depth in this setting. More specifically, (a) we show theoretical lower bounds of $\log(\kappa)$ (or $\sqrt{\kappa}$) linear attention layers in the unrestricted (or restricted) attention setting and, (b) we show that multilayer Transformers can indeed solve such tasks with a number of layers that matches the lower bounds. However, we show that this expressivity of multilayer Transformer comes at the price of robustness. In particular, multilayer Transformers are not robust to even distributional shifts as small as $O(e^{-L})$ in Wasserstein distance, where $L$ is the depth of the network. We then demonstrate that Looped Transformers -- a special class of multilayer Transformers with weight-sharing -- not only exhibit similar expressive power but are also provably robust under mild assumptions. Besides out-of-distribution generalization, we also show that Looped Transformers are the only models that exhibit a monotonic behavior of loss with respect to depth.
- Abstract(参考訳): 近年,深層トランスフォーマーモデルのテキスト内学習(ICL)能力が注目されている。
ユニモーダルガウスデータに対する文脈内線形回帰の研究により、最近の経験的および理論的研究は、ICLは、勾配降下のような学習アルゴリズムをシミュレートするトランスフォーマーの能力から生じると論じている。
しかし、これらの作業は、複数のタスクをコンテキストで学習するトランスフォーマーの驚くべき能力を捉えていない。
そこで本研究では,条件数$[1, \kappa]$のデータの共分散行列を特徴とする,多様なタスクによる線形回帰の文脈内学習について検討し,この設定における深度の重要性を強調した。
より具体的には
(a) 制限のない(または制限されていない)注意設定における$\log(\kappa)$ (または$\sqrt{\kappa}$)線形注意層の理論的な下界を示し、
b) マルチレイヤトランスフォーマーは, 下位境界にマッチする複数のレイヤで, 実際にそのようなタスクを解くことができることを示す。
しかし、この多層トランスの表現性はロバストさの代償で得られることを示す。
特に、多層トランスフォーマーは、ネットワークの深さが$L$であるワッサーシュタイン距離において$O(e^{-L})$のような分布シフトにも頑丈ではない。
次に、ウェイトシェアリングを備えた多層トランスフォーマーの特殊クラスであるLooped Transformersが、同様の表現力を示すだけでなく、穏やかな仮定の下では、確実に堅牢であることを示す。
分布外一般化の他に、ループ変換器は深さに関して損失の単調な振る舞いを示す唯一のモデルであることを示す。
関連論文リスト
- One-Layer Transformer Provably Learns One-Nearest Neighbor In Context [48.4979348643494]
本研究では、1層変圧器が1層近傍の規則を学習する能力について検討する。
単一のソフトマックスアテンション層は、ワンアレスト隣人のように振る舞うことをうまく学ぶことができる。
論文 参考訳(メタデータ) (2024-11-16T16:12:42Z) - Bypassing the Exponential Dependency: Looped Transformers Efficiently Learn In-context by Multi-step Gradient Descent [26.764893400499354]
線形ループ変換器は、コンテキスト内学習において、多段階勾配勾配を効率よく実装できることを示す。
この結果から,入力データが一定条件数である場合,$n = O(d)$であれば,線形ループ変換器の誤差は小さくなることがわかった。
論文 参考訳(メタデータ) (2024-10-15T04:44:23Z) - Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - Can Transformers Learn $n$-gram Language Models? [77.35809823602307]
2種類のランダムな$n$-gram LMを学習するトランスフォーマーの能力について検討する。
例えば、$n$-gram LMに対する古典的な推定手法として、add-$lambda$ smoothing outperform transformerがある。
論文 参考訳(メタデータ) (2024-10-03T21:21:02Z) - How do Transformers perform In-Context Autoregressive Learning? [76.18489638049545]
簡単な次のトークン予測タスクでTransformerモデルをトレーニングする。
トレーニングされたTransformerが、まず$W$ in-contextを学習し、次に予測マッピングを適用することで、次のトークンを予測する方法を示す。
論文 参考訳(メタデータ) (2024-02-08T16:24:44Z) - A Closer Look at In-Context Learning under Distribution Shifts [24.59271215602147]
線形回帰の単純かつ基本的なタスクのレンズから、文脈内学習の一般性と限界をよりよく理解することを目的としている。
変圧器とセットベース分布の両方が, 正規最小二乗(OLS)の性能をより密にエミュレートし, 文脈内学習による分布評価を行うことがわかった。
トランスフォーマーはまた、セットベースの分散がフェーターとなる、軽微な分散シフトに対するレジリエンスも向上している。
論文 参考訳(メタデータ) (2023-05-26T07:47:21Z) - The Closeness of In-Context Learning and Weight Shifting for Softmax
Regression [42.95984289657388]
ソフトマックス回帰定式化に基づく文脈内学習について検討する。
基本回帰タスクに対して自己注意のみの変換器を訓練する場合、勾配差と変換器で学習したモデルに非常に類似性があることが示される。
論文 参考訳(メタデータ) (2023-04-26T04:33:41Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。