論文の概要: On Rank-Dependent Generalisation Error Bounds for Transformers
- arxiv url: http://arxiv.org/abs/2410.11500v1
- Date: Tue, 15 Oct 2024 11:14:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:03:21.288903
- Title: On Rank-Dependent Generalisation Error Bounds for Transformers
- Title(参考訳): 変圧器のランク依存一般化誤差境界について
- Authors: Lan V. Truong,
- Abstract要約: 線形関数クラスに対して様々な被覆数境界を導入し、それぞれが入力ノルムと行列ノルムに関する異なる制約を課す。
次に、これらの境界を適用して、単層変圧器の一般化誤差を導出する。
- 参考スコア(独自算出の注目度): 18.601449856300984
- License:
- Abstract: In this paper, we introduce various covering number bounds for linear function classes, each subject to different constraints on input and matrix norms. These bounds are contingent on the rank of each class of matrices. We then apply these bounds to derive generalization errors for single layer transformers. Our results improve upon several existing generalization bounds in the literature and are independent of input sequence length, highlighting the advantages of employing low-rank matrices in transformer design. More specifically, our achieved generalisation error bound decays as $O(1/\sqrt{n})$ where $n$ is the sample length, which improves existing results in research literature of the order $O((\log n)/(\sqrt{n}))$. It also decays as $O(\log r_w)$ where $r_w$ is the rank of the combination of query and and key matrices.
- Abstract(参考訳): 本稿では、線形関数クラスに対する様々な被覆数境界を導入し、それぞれが入力ノルムと行列ノルムに関する異なる制約を課す。
これらの境界は各行列の階数に一致している。
次に、これらの境界を適用して、単層変圧器の一般化誤差を導出する。
本研究は, 文献におけるいくつかの既存一般化境界を改良し, 入力シーケンス長に依存せず, 低ランク行列を用いたトランスフォーマー設計の利点を浮き彫りにした。
より具体的には、達成された一般化誤差は、$O(1/\sqrt{n})$で、$n$はサンプル長であり、$O((\log n)/(\sqrt{n})$の研究文献における既存の結果を改善する。
また、$O(\log r_w)$、$r_w$はクエリとキー行列の組み合わせのランクである。
関連論文リスト
- Optimal Quantization for Matrix Multiplication [35.007966885532724]
我々は、ネスト格子に基づく普遍量化器を、任意の(非ランダムな)行列対に対する近似誤差の明示的な保証付きで、フロベニウスノルム$|A|_F, |B|_F$, $|Atop B|_F$のみの観点から、$A$, $B$とする。
論文 参考訳(メタデータ) (2024-10-17T17:19:48Z) - Sequence Length Independent Norm-Based Generalization Bounds for
Transformers [21.2523248114561]
本稿では,入力シーケンス長に依存しないトランスフォーマーアーキテクチャに対して,ノルムに基づく一般化境界を提供する。
変換器のラデマッハ複雑性の上界への有界線型変換の関数クラスに対して、3つの新しい被覆数境界を用いる。
論文 参考訳(メタデータ) (2023-10-19T18:31:09Z) - One-sided Matrix Completion from Two Observations Per Row [95.87811229292056]
行列の欠落値を$XTX$で計算する自然アルゴリズムを提案する。
合成データの一方の回収と低被覆ゲノムシークエンシングについて,本アルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2023-06-06T22:35:16Z) - Concentration of polynomial random matrices via Efron-Stein inequalities [0.3451964963586458]
多くの応用において、変数がスカラーであるランダム行列を解析する必要がある。
パウリン・マッキー=トロップによって開発された行列 Efron-Stein の不等式に基づいて、そのような境界を得るための一般的な枠組みを提案する。
トレースパワー法を非自明に応用したJonesら[FOCS 2021]が最近取得した"スパースグラフ行列"のバウンダリを導出する。
論文 参考訳(メタデータ) (2022-09-06T17:12:30Z) - Low-Rank Updates of Matrix Square Roots [7.832944895330117]
行列平方根と逆平方根演算を考える。
行列に対する低階摂動が与えられたとき、(逆)平方根に対する低階近似補正が存在すると論じる。
次に、その方程式に対する低ランク解をどのように計算するかについて議論する。
論文 参考訳(メタデータ) (2022-01-31T12:05:33Z) - Sparse Factorization of Large Square Matrices [10.94053598642913]
本稿では,大面積の正方行列とスパースフルランク行列の積を近似する。
近似では、我々の手法は$Ntimes N$ full matrix に対して$N(log N)2$ non-zero number しか必要としない。
近似行列がスパースかつハイランクである場合,本手法により近似精度が向上することを示す。
論文 参考訳(メタデータ) (2021-09-16T18:42:21Z) - Non-PSD Matrix Sketching with Applications to Regression and
Optimization [56.730993511802865]
非PSDおよび2乗根行列の次元削減法を提案する。
複数のダウンストリームタスクにこれらのテクニックをどのように使用できるかを示す。
論文 参考訳(メタデータ) (2021-06-16T04:07:48Z) - Linear-Sample Learning of Low-Rank Distributions [56.59844655107251]
ktimes k$, rank-r$, matrices to normalized $L_1$ distance requires $Omega(frackrepsilon2)$ sample。
我々は、$cal O(frackrepsilon2log2fracepsilon)$ sample, a number linear in the high dimension, and almost linear in the matrices, usually low, rank proofs.というアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-30T19:10:32Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z) - Sketching Transformed Matrices with Applications to Natural Language
Processing [76.6222695417524]
本稿では, 変換行列を用いて, 与えられた小さな行列の積を計算するための空間効率のよいスケッチアルゴリズムを提案する。
提案手法は誤差が小さく,空間と時間の両方で効率がよいことを示す。
論文 参考訳(メタデータ) (2020-02-23T03:07:31Z) - Supervised Quantile Normalization for Low-rank Matrix Approximation [50.445371939523305]
我々は、$X$ の値と $UV$ の値を行ワイズで操作できる量子正規化演算子のパラメータを学習し、$X$ の低ランク表現の質を改善する。
本稿では,これらの手法が合成およびゲノムデータセットに適用可能であることを実証する。
論文 参考訳(メタデータ) (2020-02-08T21:06:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。