論文の概要: In-Context Learning of a Linear Transformer Block: Benefits of the MLP
Component and One-Step GD Initialization
- arxiv url: http://arxiv.org/abs/2402.14951v1
- Date: Thu, 22 Feb 2024 20:26:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 16:29:07.975040
- Title: In-Context Learning of a Linear Transformer Block: Benefits of the MLP
Component and One-Step GD Initialization
- Title(参考訳): リニア変圧器ブロックのインコンテキスト学習:mlp成分とワンステップgd初期化の利点
- Authors: Ruiqi Zhang, Jingfeng Wu, Peter L. Bartlett
- Abstract要約: EmphLinear Transformer Bay(LTB)のエンフィン・コンテクスト学習能力について検討する。
以上の結果から,LCBは最適ICLリスクをほぼ早期に達成できることが示唆された。
- 参考スコア(独自算出の注目度): 38.797500375114595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the \emph{in-context learning} (ICL) ability of a \emph{Linear
Transformer Block} (LTB) that combines a linear attention component and a
linear multi-layer perceptron (MLP) component. For ICL of linear regression
with a Gaussian prior and a \emph{non-zero mean}, we show that LTB can achieve
nearly Bayes optimal ICL risk. In contrast, using only linear attention must
incur an irreducible additive approximation error. Furthermore, we establish a
correspondence between LTB and one-step gradient descent estimators with
learnable initialization ($\mathsf{GD}\text{-}\mathbf{\beta}$), in the sense
that every $\mathsf{GD}\text{-}\mathbf{\beta}$ estimator can be implemented by
an LTB estimator and every optimal LTB estimator that minimizes the in-class
ICL risk is effectively a $\mathsf{GD}\text{-}\mathbf{\beta}$ estimator.
Finally, we show that $\mathsf{GD}\text{-}\mathbf{\beta}$ estimators can be
efficiently optimized with gradient flow, despite a non-convex training
objective. Our results reveal that LTB achieves ICL by implementing
$\mathsf{GD}\text{-}\mathbf{\beta}$, and they highlight the role of MLP layers
in reducing approximation error.
- Abstract(参考訳): 本稿では,線形アテンション成分と線形多層パーセプトロン(MLP)成分を併用した 'emph{Linear Transformer Block} (LTB) の 'emph{in-context learning} (ICL) 能力について検討する。
ガウス前値と非零平均値を持つ線形回帰の icl に対して、ltb はベイズ最適 icl リスクをほぼ達成できることを示す。
対照的に、線形注意のみを用いることは、既約加法近似誤差を引き起こす必要がある。
さらに、LCBと学習可能な初期化を伴う一段階勾配降下推定器(\mathsf{GD}\text{-}\mathbf{\beta}$)との対応性を確立し、全ての$\mathsf{GD}\text{-}\mathbf{\beta}$ estimatorをLCB推定器とクラス内ICLリスクを最小化する全ての最適LCB推定器で実装できるという意味では、事実上$\mathsf{GD}\text{-}\mathbf{\beta}$ estimatorである。
最後に、非凸なトレーニング目標にもかかわらず、$\mathsf{gd}\text{-}\mathbf{\beta}$ estimators は勾配フローで効率的に最適化できることを示す。
この結果から,LCB は $\mathsf{GD}\text{-}\mathbf{\beta}$ で ICL を実現し,近似誤差を低減する上で MLP 層の役割を強調した。
関連論文リスト
- Pretrained transformer efficiently learns low-dimensional target functions in-context [40.77319247558742]
勾配降下により最適化された非線形変換器は、ターゲット関数の分布の次元にのみ依存するプロンプト長を持つ、$f_*$ in-contextを学習する。
本結果は,事前学習した変換器の関数クラスの低次元構造への適応性を強調し,サンプル効率の良いICLを実現する。
論文 参考訳(メタデータ) (2024-11-04T19:24:39Z) - Provably Efficient Neural Offline Reinforcement Learning via Perturbed
Rewards [33.88533898709351]
VIPeRは、ランダム化された値関数のアイデアと悲観主義の原理を一致させる。
オフラインデータを複数回摂動することで、暗黙的に悲観性を得る。
ニューラルネットワーク関数近似を用いた一般的なマルコフ決定過程(MDP)において、証明可能かつ計算的に効率的である。
論文 参考訳(メタデータ) (2023-02-24T17:52:12Z) - SIMPLE: A Gradient Estimator for $k$-Subset Sampling [42.38652558807518]
この作業では、フォワードパスの離散$k$-subsetサンプリングに戻ります。
勾配推定器 SIMPLE は, 最先端推定器と比較して, バイアスやばらつきが低いことを示す。
実験結果から,線形回帰を説明・スパースする学習性能が向上した。
論文 参考訳(メタデータ) (2022-10-04T22:33:16Z) - Settling the Sample Complexity of Model-Based Offline Reinforcement
Learning [50.5790774201146]
オフライン強化学習(RL)は、事前収集されたデータを用いて、さらなる探索を行わずに学習する。
事前のアルゴリズムや分析は、最適なサンプルの複雑さに悩まされるか、サンプルの最適性に到達するために高いバーンインコストがかかるかのいずれかである。
モデルベース(あるいは"プラグイン")アプローチは,バーンインコストを伴わずに,最小限のサンプル複雑性を実現することを実証する。
論文 参考訳(メタデータ) (2022-04-11T17:26:19Z) - Minimax Optimal Quantization of Linear Models: Information-Theoretic
Limits and Efficient Algorithms [59.724977092582535]
測定から学習した線形モデルの定量化の問題を考える。
この設定の下では、ミニマックスリスクに対する情報理論の下限を導出する。
本稿では,2層ReLUニューラルネットワークに対して,提案手法と上界を拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-02-23T02:39:04Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Unfolding Projection-free SDP Relaxation of Binary Graph Classifier via
GDPA Linearization [59.87663954467815]
アルゴリズムの展開は、モデルベースのアルゴリズムの各イテレーションをニューラルネットワーク層として実装することにより、解釈可能で類似のニューラルネットワークアーキテクチャを生成する。
本稿では、Gershgorin disc perfect alignment (GDPA)と呼ばれる最近の線形代数定理を利用して、二進グラフの半定値プログラミング緩和(SDR)のためのプロジェクションフリーアルゴリズムをアンロールする。
実験結果から,我々の未学習ネットワークは純粋モデルベースグラフ分類器よりも優れ,純粋データ駆動ネットワークに匹敵する性能を示したが,パラメータははるかに少なかった。
論文 参考訳(メタデータ) (2021-09-10T07:01:15Z) - Skew Orthogonal Convolutions [44.053067014796596]
Lipschitzの制約付き畳み込みニューラルネットワークを$l_2$ノルムでトレーニングすることは、証明可能な対逆ロバスト性、解釈可能な勾配、安定したトレーニングなどに有用である。
Methodabvは、従来の作業よりもはるかに高速な大きな畳み込みニューラルネットワークであるLipschitzのトレーニングを可能にする。
論文 参考訳(メタデータ) (2021-05-24T17:11:44Z) - Nonparametric Learning of Two-Layer ReLU Residual Units [22.870658194212744]
本稿では,線形整列ユニット(ReLU)を活性化した2層残基を学習するアルゴリズムについて述べる。
解析最小化器はそのパラメータと非線形性の観点から、正確な地上構造ネットワークを表現できる機能として層ワイドな目的を設計する。
我々は,アルゴリズムの統計的強い一貫性を証明し,実験によるアルゴリズムの堅牢性とサンプル効率を実証する。
論文 参考訳(メタデータ) (2020-08-17T22:11:26Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。