論文の概要: Setting the Record Straight on Transformer Oversmoothing
- arxiv url: http://arxiv.org/abs/2401.04301v1
- Date: Tue, 9 Jan 2024 01:19:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 17:14:57.655820
- Title: Setting the Record Straight on Transformer Oversmoothing
- Title(参考訳): Transformer Oversmoothing における記録線の設定
- Authors: Gb\`etondji J-S Dovonon, Michael M. Bronstein, Matt J. Kusner
- Abstract要約: トランスフォーマーベースのモデルは、最近、さまざまなドメインセットで大成功を収めています。
近年の研究では、トランスフォーマーは本質的に低域通過フィルタであり、徐々に入力を過度に過度に行うことが示されている。
実際、トランスフォーマーは本質的にローパスフィルタではない。代わりに、トランスフォーマーが過度に滑らかであるか否かは、更新方程式の固有スペクトルに依存する。
- 参考スコア(独自算出の注目度): 39.478055825375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based models have recently become wildly successful across a
diverse set of domains. At the same time, recent work has shown that
Transformers are inherently low-pass filters that gradually oversmooth the
inputs, reducing the expressivity of their representations. A natural question
is: How can Transformers achieve these successes given this shortcoming? In
this work we show that in fact Transformers are not inherently low-pass
filters. Instead, whether Transformers oversmooth or not depends on the
eigenspectrum of their update equations. Our analysis extends prior work in
oversmoothing and in the closely-related phenomenon of rank collapse. We show
that many successful Transformer models have attention and weights which
satisfy conditions that avoid oversmoothing. Based on this analysis, we derive
a simple way to parameterize the weights of the Transformer update equations
that allows for control over its spectrum, ensuring that oversmoothing does not
occur. Compared to a recent solution for oversmoothing, our approach improves
generalization, even when training with more layers, fewer datapoints, and data
that is corrupted.
- Abstract(参考訳): トランスフォーマーベースのモデルは最近、さまざまなドメインでかなり成功しています。
同時に、最近の研究はトランスフォーマーが本質的に低域通過フィルタであり、徐々に入力を過度に過度に処理し、表現の表現性を低下させることを示した。
この欠点を考えると、トランスフォーマーはこれらの成功をどうやって達成できるのか?
本研究では、トランスフォーマーは本質的に低域通過フィルタではないことを示す。
代わりに、トランスフォーマーがオーバームースかどうかは、更新方程式の固有スペクトルに依存する。
我々の分析は、過密化や階級崩壊の密接な関係の現象における先行研究を延長する。
その結果、多くのトランスフォーマーモデルが過度な動きを避ける条件を満たした注意と重みを持つことがわかった。
この解析に基づいて,そのスペクトルの制御を可能にする変圧器更新方程式の重みをパラメータ化する方法を導出し,過スムーシングが発生しないようにする。
オーバースムーシングの最近のソリューションと比較して、我々のアプローチは、より多くのレイヤ、少ないデータポイント、破損したデータでトレーニングしても、一般化を改善する。
関連論文リスト
- How do Transformers perform In-Context Autoregressive Learning? [65.92202218348696]
簡単な次のトークン予測タスクでTransformerモデルをトレーニングする。
トレーニングされたTransformerが、まず$W$ in-contextを学習し、次に予測マッピングを適用することで、次のトークンを予測する方法を示す。
論文 参考訳(メタデータ) (2024-02-08T16:24:44Z) - Transformers learn to implement preconditioned gradient descent for
in-context learning [41.74394657009037]
いくつかの最近の研究は、変圧器が勾配降下のようなアルゴリズムを実装できることを実証している。
トランスフォーマーは、ランダムな問題インスタンスをトレーニングすることで、そのようなアルゴリズムの実装を学べますか?
注意層が$L$の変圧器では,事前条件付き勾配勾配の反復として$L$を具現化する訓練対象の臨界点が証明される。
論文 参考訳(メタデータ) (2023-06-01T02:35:57Z) - A Length-Extrapolatable Transformer [98.54835576985664]
長さ外挿、すなわち短いテキストのトレーニングに焦点をあて、長いシーケンスを評価します。
注目度を最大化するために,相対的な位置埋め込みを導入する。
言語モデルを用いてトランスフォーマーの変種を評価する。
論文 参考訳(メタデータ) (2022-12-20T18:56:20Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Video Transformers: A Survey [42.314208650554264]
ビデオデータのモデル化にトランスフォーマーを適用するための貢献とトレンドについて検討する。
具体的には、ビデオの埋め込みとトークン化の方法を掘り下げて、大きなCNNバックボーンの非常にウィドスプレッドな使用法を見つけます。
また,ビデオトランスフォーマーの訓練に使用される自己監督的損失の分析を行った。
論文 参考訳(メタデータ) (2022-01-16T07:31:55Z) - On the Power of Saturated Transformers: A View from Circuit Complexity [87.20342701232869]
飽和変圧器はハードアテンション変圧器の限界を超越していることを示す。
硬度から飽和度へのジャンプは、変換器の有効回路深さを$O(log n)$の係数で増加させると解釈できる。
論文 参考訳(メタデータ) (2021-06-30T17:09:47Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。