論文の概要: Sequence Length Independent Norm-Based Generalization Bounds for
Transformers
- arxiv url: http://arxiv.org/abs/2310.13088v1
- Date: Thu, 19 Oct 2023 18:31:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 01:48:12.563764
- Title: Sequence Length Independent Norm-Based Generalization Bounds for
Transformers
- Title(参考訳): 変圧器の系列長独立ノルム一般化境界
- Authors: Jacob Trauger, Ambuj Tewari
- Abstract要約: 本稿では,入力シーケンス長に依存しないトランスフォーマーアーキテクチャに対して,ノルムに基づく一般化境界を提供する。
変換器のラデマッハ複雑性の上界への有界線型変換の関数クラスに対して、3つの新しい被覆数境界を用いる。
- 参考スコア(独自算出の注目度): 21.2523248114561
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper provides norm-based generalization bounds for the Transformer
architecture that do not depend on the input sequence length. We employ a
covering number based approach to prove our bounds. We use three novel covering
number bounds for the function class of bounded linear transformations to upper
bound the Rademacher complexity of the Transformer. Furthermore, we show this
generalization bound applies to the common Transformer training technique of
masking and then predicting the masked word. We also run a simulated study on a
sparse majority data set that empirically validates our theoretical findings.
- Abstract(参考訳): 本稿では,入力シーケンス長に依存しないトランスフォーマーアーキテクチャに対して,ノルムに基づく一般化境界を提供する。
私たちは境界を証明するために被覆数に基づくアプローチを採用しています。
変換器のラデマッハ複雑性の上界への有界線型変換の関数クラスに対して、3つの新しい被覆数境界を用いる。
さらに、この一般化は、マスキングの一般的なトランスフォーマートレーニング手法に適用され、マスキングされた単語を予測する。
また、我々の理論的知見を実証的に検証するスパースマジョリティデータセットのシミュレーション研究も行っている。
関連論文リスト
- On Rank-Dependent Generalisation Error Bounds for Transformers [18.601449856300984]
線形関数クラスに対して様々な被覆数境界を導入し、それぞれが入力ノルムと行列ノルムに関する異なる制約を課す。
次に、これらの境界を適用して、単層変圧器の一般化誤差を導出する。
論文 参考訳(メタデータ) (2024-10-15T11:14:04Z) - Transformers Can Achieve Length Generalization But Not Robustly [76.06308648699357]
長さ一般化の成功は,データ形式や位置エンコーディングのタイプと密接に関連していることを示す。
標準変換器が入力長の2.5倍のシーケンス長に外挿できることを初めて示す。
論文 参考訳(メタデータ) (2024-02-14T18:18:29Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - Sumformer: Universal Approximation for Efficient Transformers [2.4832703558223725]
本稿では,シーケンス・ツー・シーケンス関数を普遍的に近似できる新しいシンプルなアーキテクチャであるSumformerを紹介する。
我々はトランスフォーマーの新しい証明を導き、一つの注意層だけが普遍的な近似に十分であることを示す。
論文 参考訳(メタデータ) (2023-07-05T13:59:35Z) - Universality and Limitations of Prompt Tuning [65.8354898840308]
トランスフォーマーアーキテクチャにおけるソフトプロンプトチューニングの役割を理解するための最初のステップの1つを取り上げる。
連続値関数に対する有限深度事前学習型変圧器を用いて、普遍性と制限のレンズからの即時チューニングを解析する。
この結果は、リプシッツ関数の集合における任意の列列列関数を近似するプロンプトを持つ強変換器の存在を保証する。
論文 参考訳(メタデータ) (2023-05-30T06:47:07Z) - Approximation Rate of the Transformer Architecture for Sequence Modeling [18.166959969957315]
非線型関係のクラスを考察し、トランスフォーマーのジャクソン型近似率推定を明示するために、複雑性尺度の新たな概念を同定する。
この速度はトランスフォーマーの構造特性を明らかにし、それが近似に最も適しているシーケンシャルな関係のタイプを示唆する。
論文 参考訳(メタデータ) (2023-05-29T10:56:36Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z) - Iterative Decoding for Compositional Generalization in Transformers [5.269770493488338]
シーケンシャル・ツー・シークエンス・ラーニングでは、トランスフォーマーは極端に長い例に対して正しい出力を予測できないことが多い。
本稿では,Seq2seq学習に代わる反復復号法を提案する。
反復復号により訓練されたトランスフォーマーはPCFGデータセット上でセq2seqよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-10-08T14:52:25Z) - I-BERT: Inductive Generalization of Transformer to Arbitrary Context
Lengths [2.604653544948958]
自己注意は、自然言語処理のための最先端のシーケンス・ツー・シーケンスモデルの重要な構成要素として現れてきた。
位置エンコーディングをリカレント層に置き換える双方向トランスであるI-BERTを提案する。
論文 参考訳(メタデータ) (2020-06-18T00:56:12Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。