論文の概要: Sharper Generalization Bounds for Transformer
- arxiv url: http://arxiv.org/abs/2603.21541v1
- Date: Mon, 23 Mar 2026 03:54:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.472468
- Title: Sharper Generalization Bounds for Transformer
- Title(参考訳): 変圧器のシャーパー一般化境界
- Authors: Yawen Li, Tao Hu, Zhouhui Lian, Wan Tian, Yijie Peng, Huiming Zhang, Zhongyi Li,
- Abstract要約: 我々はまず、オフセットのRademacher複雑性の観点からトランスフォーマーの過剰なリスクを表現した。
次に、トランスフォーマー仮説空間の被覆数の上界によって、洗練された過大なリスク境界を導出する。
特徴写像上の有界性仮定を緩和し、理論結果を非有界(準ガウス的)な特徴と重み付き分布を持つ設定に拡張する。
- 参考スコア(独自算出の注目度): 24.982988565358692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies generalization error bounds for Transformer models. Based on the offset Rademacher complexity, we derive sharper generalization bounds for different Transformer architectures, including single-layer single-head, single-layer multi-head, and multi-layer Transformers. We first express the excess risk of Transformers in terms of the offset Rademacher complexity. By exploiting its connection with the empirical covering numbers of the corresponding hypothesis spaces, we obtain excess risk bounds that achieve optimal convergence rates up to constant factors. We then derive refined excess risk bounds by upper bounding the covering numbers of Transformer hypothesis spaces using matrix ranks and matrix norms, leading to precise, architecture-dependent generalization bounds. Finally, we relax the boundedness assumption on feature mappings and extend our theoretical results to settings with unbounded (sub-Gaussian) features and heavy-tailed distributions.
- Abstract(参考訳): 本稿ではトランスフォーマーモデルの一般化誤差境界について検討する。
オフセットのRademacher複雑性に基づいて、単層単層、単層多層、多層トランスフォーマーを含む異なるトランスフォーマーアーキテクチャに対して、よりシャープな一般化バウンダを導出する。
我々はまず、オフセットのRademacher複雑性の観点からトランスフォーマーの過剰なリスクを表現した。
対応する仮説空間の経験的被覆数との接続を利用して、最適収束率を定数要素まで達成する過剰なリスク境界を得る。
次に、行列階数と行列ノルムを用いてトランスフォーマー仮説空間の被覆数の上界を上界にすることで、洗練された過剰リスク境界を導出し、正確なアーキテクチャ依存の一般化境界を導出する。
最後に、特徴写像上の有界性仮定を緩和し、理論結果を非有界な(準ガウス的)特徴と重み付き分布を持つ設定に拡張する。
関連論文リスト
- On the Expressive Power of Transformers for Maxout Networks and Continuous Piecewise Linear Functions [8.192218166714422]
トランスフォーマーネットワークは幅広い応用において顕著な経験的成功を遂げてきたが、理論的な表現力は未だ十分に理解されていない。
まずトランスフォーマーネットワークによる最大化ネットワークの明示的な近似を確立し,これと同等のモデル複雑性を保ったままにしておく。
その結果、トランスフォーマーは同様の複雑性制約の下でReLUネットワークの普遍近似能力を継承する。
論文 参考訳(メタデータ) (2026-03-03T15:27:15Z) - Length Generalization Bounds for Transformers [9.186207021992535]
長さ一般化は、任意の長さの入力に対する正確な予測を可能にする学習アルゴリズムの重要な特性である。
このような保証を得るためには、モデルが一般化されることを保証した長さ一般化境界を計算できる必要がある。
本稿では,変換器に密接な関係を持つ言語クラスであるCRASPに対して,そのような一般化境界の計算可能性に関するオープンな問題について述べる。
論文 参考訳(メタデータ) (2026-02-13T14:49:27Z) - Linear combination of unitaries with exponential convergence [0.0]
単項演算子の線形結合に非単項演算子を分解する一般的な方法を提案する。
量子回路で実装されると、結果のブロックエンコーディングのサブ正規化は逆誤差の二重対数でスケールする。
論文 参考訳(メタデータ) (2026-01-25T22:47:21Z) - A Constrained Optimization Perspective of Unrolled Transformers [77.12297732942095]
我々は、最適化降下アルゴリズムのように振る舞う変圧器の訓練のための制約付き最適化フレームワークを導入する。
拘束型変圧器は摂動の強靭性を実現し,より高い分布分布一般化を維持する。
論文 参考訳(メタデータ) (2026-01-24T02:12:39Z) - Generalization Bounds for Transformer Channel Decoders [61.55280736553095]
本稿では,ECCTの一般化性能を学習理論の観点から検討する。
我々の知る限りでは、この研究はこの種のデコーダに対する最初の理論的一般化保証を提供する。
論文 参考訳(メタデータ) (2026-01-11T15:56:37Z) - WUSH: Near-Optimal Adaptive Transforms for LLM Quantization [52.77441224845925]
低ビット幅への量子化は、大きな言語モデルをデプロイするための標準的なアプローチである。
いくつかの極端な重みと活性化は、ダイナミックレンジを拡張し、量子化器の有効分解能を減少させる。
結合重みアクティベーション量子化のための閉形式最適線形ブロックワイズ変換を初めて導出する。
論文 参考訳(メタデータ) (2025-11-30T16:17:34Z) - Higher-Order Transformer Derivative Estimates for Explicit Pathwise Learning Guarantees [9.305677878388664]
本稿では, 変圧器モデルに対するすべての順序の高階微分を正確に推定することにより, 文献のギャップを埋める。
我々は,注目ヘッド数,各変圧器ブロックの深さと幅,正規化層数の観点から,すべての定数の完全明示的な推定値を得る。
実世界のトランスフォーマーは、1つのマルコフ過程の軌道のサンプルから$O(operatornamepolylog(N/sqrtN)$で学習することができる。
論文 参考訳(メタデータ) (2024-05-26T13:19:32Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - Sequence Length Independent Norm-Based Generalization Bounds for
Transformers [21.2523248114561]
本稿では,入力シーケンス長に依存しないトランスフォーマーアーキテクチャに対して,ノルムに基づく一般化境界を提供する。
変換器のラデマッハ複雑性の上界への有界線型変換の関数クラスに対して、3つの新しい被覆数境界を用いる。
論文 参考訳(メタデータ) (2023-10-19T18:31:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。