論文の概要: Transformers can optimally learn regression mixture models
- arxiv url: http://arxiv.org/abs/2311.08362v1
- Date: Tue, 14 Nov 2023 18:09:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 12:59:44.897321
- Title: Transformers can optimally learn regression mixture models
- Title(参考訳): トランスフォーマーは回帰混合モデルを最適に学習できる
- Authors: Reese Pathak, Rajat Sen, Weihao Kong, Abhimanyu Das
- Abstract要約: 変換器は回帰の混合に対して最適な予測器を学習できることを示す。
実験では、トランスフォーマーがサンプル効率のよい方法で回帰の混合を学習できることも示している。
決定理論の最適手順が実際に変換器によって実装可能であることを具体的確に証明する。
- 参考スコア(独自算出の注目度): 22.85684729248361
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture models arise in many regression problems, but most methods have seen
limited adoption partly due to these algorithms' highly-tailored and
model-specific nature. On the other hand, transformers are flexible, neural
sequence models that present the intriguing possibility of providing
general-purpose prediction methods, even in this mixture setting. In this work,
we investigate the hypothesis that transformers can learn an optimal predictor
for mixtures of regressions. We construct a generative process for a mixture of
linear regressions for which the decision-theoretic optimal procedure is given
by data-driven exponential weights on a finite set of parameters. We observe
that transformers achieve low mean-squared error on data generated via this
process. By probing the transformer's output at inference time, we also show
that transformers typically make predictions that are close to the optimal
predictor. Our experiments also demonstrate that transformers can learn
mixtures of regressions in a sample-efficient fashion and are somewhat robust
to distribution shifts. We complement our experimental observations by proving
constructively that the decision-theoretic optimal procedure is indeed
implementable by a transformer.
- Abstract(参考訳): 混合モデルは多くの回帰問題で生じるが、ほとんどの手法はアルゴリズムの高度に調整されたモデル固有の性質のために採用が限られている。
一方、トランスはフレキシブルでニューラルなシーケンスモデルであり、この混合設定であっても汎用的な予測方法を提供するという興味深い可能性を示している。
本研究では,変圧器が回帰混合の最適予測器を学習できるという仮説について検討する。
有限なパラメータ集合上のデータ駆動指数重みによって決定論的最適手順が与えられる線形回帰の混合に対して生成過程を構築する。
このプロセスによって生成されたデータに対して,トランスフォーマーは平均二乗誤差が低いことを観察する。
推論時に変換器の出力を推定することにより、変換器は通常最適な予測器に近い予測を行うことを示す。
実験により, 変圧器は試料効率のよい方法で回帰の混合を学習でき, 分散シフトに対してある程度頑健であることを示した。
我々は, 決定論的最適手順がトランスフォーマーによって実際に実装可能であることを構築的に証明することにより, 実験的な観察を補完する。
関連論文リスト
- Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - Transformers Handle Endogeneity in In-Context Linear Regression [34.458004744956334]
インストゥルメンタル変数(IV)を用いて内在性を効果的に扱うメカニズムをトランスフォーマーが本質的に持っていることを示す。
提案手法では,事前学習損失の最小化が最小限の余剰損失を達成できることを示す理論的保証を提供する。
論文 参考訳(メタデータ) (2024-10-02T06:21:04Z) - Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Linear Transformers are Versatile In-Context Learners [19.988368693379087]
線形変圧器の各層が負の線形回帰問題に対する重みベクトルを維持していることを示す。
また、異なるレベルのノイズでトレーニングデータが破損する難易度シナリオにおける線形変圧器の使用についても検討する。
ここでは,線形変圧器が複雑かつ高効率な最適化アルゴリズムを発見することを実証する。
論文 参考訳(メタデータ) (2024-02-21T23:45:57Z) - Trained Transformers Learn Linear Models In-Context [39.56636898650966]
トランスフォーマーとしての注意に基づくニューラルネットワークは、意図的学習(ICL)を示す顕著な能力を示した
線形回帰問題のランダムな例に対する変圧器の訓練において、これらのモデルの予測は通常の正方形の非線形性を模倣することを示した。
論文 参考訳(メタデータ) (2023-06-16T15:50:03Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - Variational Transformers for Diverse Response Generation [71.53159402053392]
変分変換器(VT)は、変分自己注意フィードフォワードシーケンスモデルである。
VTはトランスフォーマーの並列化性と大域的受容場計算とCVAEの変動特性を組み合わせる。
本稿では,1)大域潜伏変数を用いた談話レベルの多様性のモデル化,2)細粒潜伏変数の列によるトランスフォーマーデコーダの拡張,の2種類のVTについて検討する。
論文 参考訳(メタデータ) (2020-03-28T07:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。