論文の概要: Setting the Record Straight on Transformer Oversmoothing
- arxiv url: http://arxiv.org/abs/2401.04301v1
- Date: Tue, 9 Jan 2024 01:19:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 17:14:57.655820
- Title: Setting the Record Straight on Transformer Oversmoothing
- Title(参考訳): Transformer Oversmoothing における記録線の設定
- Authors: Gb\`etondji J-S Dovonon, Michael M. Bronstein, Matt J. Kusner
- Abstract要約: トランスフォーマーベースのモデルは、最近、さまざまなドメインセットで大成功を収めています。
近年の研究では、トランスフォーマーは本質的に低域通過フィルタであり、徐々に入力を過度に過度に行うことが示されている。
実際、トランスフォーマーは本質的にローパスフィルタではない。代わりに、トランスフォーマーが過度に滑らかであるか否かは、更新方程式の固有スペクトルに依存する。
- 参考スコア(独自算出の注目度): 39.478055825375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based models have recently become wildly successful across a
diverse set of domains. At the same time, recent work has shown that
Transformers are inherently low-pass filters that gradually oversmooth the
inputs, reducing the expressivity of their representations. A natural question
is: How can Transformers achieve these successes given this shortcoming? In
this work we show that in fact Transformers are not inherently low-pass
filters. Instead, whether Transformers oversmooth or not depends on the
eigenspectrum of their update equations. Our analysis extends prior work in
oversmoothing and in the closely-related phenomenon of rank collapse. We show
that many successful Transformer models have attention and weights which
satisfy conditions that avoid oversmoothing. Based on this analysis, we derive
a simple way to parameterize the weights of the Transformer update equations
that allows for control over its spectrum, ensuring that oversmoothing does not
occur. Compared to a recent solution for oversmoothing, our approach improves
generalization, even when training with more layers, fewer datapoints, and data
that is corrupted.
- Abstract(参考訳): トランスフォーマーベースのモデルは最近、さまざまなドメインでかなり成功しています。
同時に、最近の研究はトランスフォーマーが本質的に低域通過フィルタであり、徐々に入力を過度に過度に処理し、表現の表現性を低下させることを示した。
この欠点を考えると、トランスフォーマーはこれらの成功をどうやって達成できるのか?
本研究では、トランスフォーマーは本質的に低域通過フィルタではないことを示す。
代わりに、トランスフォーマーがオーバームースかどうかは、更新方程式の固有スペクトルに依存する。
我々の分析は、過密化や階級崩壊の密接な関係の現象における先行研究を延長する。
その結果、多くのトランスフォーマーモデルが過度な動きを避ける条件を満たした注意と重みを持つことがわかった。
この解析に基づいて,そのスペクトルの制御を可能にする変圧器更新方程式の重みをパラメータ化する方法を導出し,過スムーシングが発生しないようにする。
オーバースムーシングの最近のソリューションと比較して、我々のアプローチは、より多くのレイヤ、少ないデータポイント、破損したデータでトレーニングしても、一般化を改善する。
関連論文リスト
- Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Transformers can optimally learn regression mixture models [22.85684729248361]
変換器は回帰の混合に対して最適な予測器を学習できることを示す。
実験では、トランスフォーマーがサンプル効率のよい方法で回帰の混合を学習できることも示している。
決定理論の最適手順が実際に変換器によって実装可能であることを具体的確に証明する。
論文 参考訳(メタデータ) (2023-11-14T18:09:15Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Transformers from an Optimization Perspective [24.78739299952529]
本研究では,トランスフォーマーモデルに基づくエネルギー関数の探索問題について検討する。
このような関数を見つけることで、解釈可能な最適化プロセスの展開として変換器を再解釈することができる。
この研究はトランスフォーマーの直感と理解に寄与し、新しいモデル設計の基礎を築き上げている可能性がある。
論文 参考訳(メタデータ) (2022-05-27T10:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。