論文の概要: Reality Only Happens Once: Single-Path Generalization Bounds for Transformers
- arxiv url: http://arxiv.org/abs/2405.16563v1
- Date: Sun, 26 May 2024 13:19:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 20:29:27.972016
- Title: Reality Only Happens Once: Single-Path Generalization Bounds for Transformers
- Title(参考訳): 現実は一度だけ起こる:変圧器の単一パス一般化境界
- Authors: Yannick Limmer, Anastasis Kratsios, Xuwei Yang, Raeid Saqur, Blanka Horvath,
- Abstract要約: 我々は、この設定における非漸近的な統計的保証を、将来的な$t$における変圧器ネットワークのテキスト一般化のバウンダリによって導き出す。
私たちの境界は3つの要素から構成される: (I) 第一に、データ生成マルコフ過程の定常分布と、その時間で$t$の分布とのギャップを定量化する。
次の項は変換器モデルの複雑さを符号化し、十分な時間があれば、最終的には$O(log(N)r/sqrtN)$で$0$に収束する。
- 参考スコア(独自算出の注目度): 9.305677878388664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the inherent challenges in deploying transformers on time series is that \emph{reality only happens once}; namely, one typically only has access to a single trajectory of the data-generating process comprised of non-i.i.d. observations. We derive non-asymptotic statistical guarantees in this setting through bounds on the \textit{generalization} of a transformer network at a future-time $t$, given that it has been trained using $N\le t$ observations from a single perturbed trajectory of a Markov process. Under the assumption that the Markov process satisfies a log-Sobolev inequality, we obtain a generalization bound which effectively converges at the rate of ${O}(1/\sqrt{N})$. Our bound depends explicitly on the activation function ($\operatorname{Swish}$, $\operatorname{GeLU}$, or $\tanh$ are considered), the number of self-attention heads, depth, width, and norm-bounds defining the transformer architecture. Our bound consists of three components: (I) The first quantifies the gap between the stationary distribution of the data-generating Markov process and its distribution at time $t$, this term converges exponentially to $0$. (II) The next term encodes the complexity of the transformer model and, given enough time, eventually converges to $0$ at the rate ${O}(\log(N)^r/\sqrt{N})$ for any $r>0$. (III) The third term guarantees that the bound holds with probability at least $1$-$\delta$, and converges at a rate of ${O}(\sqrt{\log(1/\delta)}/\sqrt{N})$.
- Abstract(参考訳): 時系列上でトランスフォーマーをデプロイする際の固有の課題の1つは、 \emph{reality only occur once} である。
マルコフ過程の1つの摂動軌跡から$N\le t$ の観測を用いて訓練されたことを考慮し、この設定における非漸近的統計的保証を、将来的な$t$における変圧器ネットワークの \textit{ Generalization} のバウンダリによって導き出す。
マルコフ過程が対数ソボレフの不等式を満たすという仮定の下で、${O}(1/\sqrt{N})$の速度で効果的に収束する一般化境界を得る。
私たちのバウンダリは、アクティベーション関数($\operatorname{Swish}$, $\operatorname{GeLU}$, $\tanh$)、自己アテンションヘッドの数、深さ、幅、およびトランスフォーマーアーキテクチャを定義するノルムバウンドに依存する。
第一に、データ生成マルコフ過程の定常分布と時間$t$での分布とのギャップを定量化し、この項は指数関数的に$0$に収束する。
(II)
次の項は変換モデルの複雑さをエンコードし、十分な時間を与えると、任意の$r>0$に対して${O}(\log(N)^r/\sqrt{N})$で$0$に収束する。
(III)
第3項は、有界が少なくとも1$-$\delta$の確率を持ち、${O}(\sqrt{\log(1/\delta)}/\sqrt{N})$の速度で収束することを保証している。
関連論文リスト
- Exact Sequence Classification with Hardmax Transformers [0.0]
我々は、ハードマックスのアテンショントランスフォーマーが$N$ラベル付きシーケンスのデータセットを$mathbbRd$, $dgeq 2$で完全に分類することを証明している。
具体的には、$mathbbRd$で任意の長さの$N$シーケンスを与えられた場合、$mathcalO(N)$ブロックと$mathcalO(Nd)$パラメータで変換器を構築し、このデータセットを完全に分類する。
論文 参考訳(メタデータ) (2025-02-04T12:31:00Z) - On the Role of Depth and Looping for In-Context Learning with Task Diversity [69.4145579827826]
多様なタスクを伴う線形回帰のための文脈内学習について検討する。
We show that multilayer Transformer is not robust to even distributional shifts as $O(e-L)$ in Wasserstein distance。
論文 参考訳(メタデータ) (2024-10-29T03:27:56Z) - Counting Like Transformers: Compiling Temporal Counting Logic Into Softmax Transformers [8.908747084128397]
時間カウントロジックの $textsfK_textt$[#] と RASP の $textsfC-RASP$ を紹介します。
それらが互いに等価であることを示し、それらが結合されていない入力サイズを持つ将来のマスキング型ソフトアテンショントランスの形式的表現性に最もよく知られた下界であることを示す。
論文 参考訳(メタデータ) (2024-04-05T20:36:30Z) - Chain of Thought Empowers Transformers to Solve Inherently Serial Problems [57.58801785642868]
思考の連鎖(CoT)は、算術や記号的推論タスクにおいて、大きな言語モデル(LLM)の精度を向上させるための非常に効果的な方法である。
この研究は、表現性のレンズを通してデコーダのみの変換器に対するCoTのパワーを理論的に理解する。
論文 参考訳(メタデータ) (2024-02-20T10:11:03Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - The Expressive Power of Transformers with Chain of Thought [29.839710738657203]
実際には、トランスフォーマーは「思考の連鎖」や「スクラッチパッド」を使用することで改善できる。
答えはYESであるが、増加量は中間生成量に大きく依存する。
また, 線形ステップでは, コンテクストに敏感な言語に変換器デコーダを配置することが示唆された。
論文 参考訳(メタデータ) (2023-10-11T22:35:18Z) - Cost Aggregation with 4D Convolutional Swin Transformer for Few-Shot
Segmentation [58.4650849317274]
Volumetric Aggregation with Transformers (VAT)は、数ショットセグメンテーションのためのコスト集約ネットワークである。
VATは、コスト集約が中心的な役割を果たすセマンティック対応のための最先端のパフォーマンスも達成する。
論文 参考訳(メタデータ) (2022-07-22T04:10:30Z) - The Parallelism Tradeoff: Limitations of Log-Precision Transformers [29.716269397142973]
入力トークン数における算術精度が対数的である変換器は、定数深さの対数空間一様しきい値回路でシミュレートできることを示す。
これは、複雑性理論の既知の結果を用いた変圧器のパワーに関する洞察を与える。
論文 参考訳(メタデータ) (2022-07-02T03:49:34Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z) - Scalable Transformers for Neural Machine Translation [86.4530299266897]
トランスフォーマーは、そのキャパシティとシーケンス生成の並列トレーニングのため、ニューラルネットワーク翻訳(NMT)で広く採用されている。
本稿では,異なるスケールのサブトランスフォーマーを自然に含み,パラメータを共有できる,スケーラブルなトランスフォーマーを提案する。
スケーラブルトランスフォーマーのトレーニングの難しさに対処する3段階のトレーニングスキームが提案されている。
論文 参考訳(メタデータ) (2021-06-04T04:04:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。