論文の概要: Spectrum-Adaptive Generalization Bounds for Trained Deep Transformers
- arxiv url: http://arxiv.org/abs/2605.07297v1
- Date: Fri, 08 May 2026 06:08:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.843005
- Title: Spectrum-Adaptive Generalization Bounds for Trained Deep Transformers
- Title(参考訳): 深部変圧器のスペクトル適応一般化境界
- Authors: Mana Sakai, Masaaki Imaizumi,
- Abstract要約: 多層変圧器のスペクトル適応ポストホック境界を導出する。
この結果から, 学習用トランスフォーマーのスペクトル構造が解析にどのように反映されているかが示唆された。
- 参考スコア(独自算出の注目度): 6.2000582635449994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding why trained Transformers generalize well is a fundamental problem in modern machine learning theory, and complexity-based generalization bounds provide a principled way to study this question. While existing norm-based bounds for Transformers remove the explicit polynomial dependence on the hidden dimension, they typically impose fixed norm constraints specified a priori and can exhibit unfavorable exponential dependence on depth. In this paper, we derive spectrum-adaptive post hoc generalization bounds for multi-layer Transformers. Under layerwise spectral norm control, the bounds are expressed in terms of layerwise Schatten quantities of the query-key, value, and feedforward weight matrices. Since the Schatten indices need not be fixed a priori and can instead be selected after training, separately for each matrix type and layer, the bounds adaptively trade off spectral complexity against the dimension- and depth-dependent factors according to the learned singular-value profiles. Empirical comparisons of BERT-adapted proxies for the leading complexity factors suggest that the proxies induced by our bounds grow more slowly with depth and hidden dimension than the corresponding norm-based proxies. Overall, our results provide a complexity-based perspective on how the spectral structure of trained Transformers is reflected in generalization analyses.
- Abstract(参考訳): 訓練されたトランスフォーマーが一般化する理由を理解することは、現代の機械学習理論における根本的な問題であり、複雑性に基づく一般化境界はこの問題を研究するための原則的な方法を提供する。
トランスフォーマーの既存のノルムベースの境界は、隠された次元への明示的な多項式依存を除去するが、それらは通常、事前に指定された固定されたノルム制約を課し、深さに好ましくない指数依存を示す。
本稿では,多層変圧器のスペクトル適応ポストホック一般化境界を導出する。
層状スペクトルノルム制御では、境界はクエリキー、値、フィードフォワードウェイト行列の層状Schatten量で表される。
シャッテン指数は先験を固定する必要がなく、代わりに各行列タイプと層ごとに訓練後に選択できるので、学習された特異値プロファイルに従ってスペクトル複雑性を次元および深さに依存した因子と適応的に交換する。
BERTを適応したプロキシの主因子に対する実証的な比較は、我々の境界によって誘導されるプロキシは、対応するノルムベースのプロキシよりも、深さと隠れ次元でよりゆっくりと成長することを示している。
その結果, 一般化解析において, トレーニングされたトランスフォーマーのスペクトル構造がどのように反映されるか, 複雑性に基づく視点が得られた。
関連論文リスト
- Sharper Generalization Bounds for Transformer [24.982988565358692]
我々はまず、オフセットのRademacher複雑性の観点からトランスフォーマーの過剰なリスクを表現した。
次に、トランスフォーマー仮説空間の被覆数の上界によって、洗練された過大なリスク境界を導出する。
特徴写像上の有界性仮定を緩和し、理論結果を非有界(準ガウス的)な特徴と重み付き分布を持つ設定に拡張する。
論文 参考訳(メタデータ) (2026-03-23T03:54:52Z) - TensorLens: End-to-End Transformer Analysis via High-Order Attention Tensors [53.891337639229285]
高次アテンション・インタラクション接続を通して表現された入力依存線形演算子として変換器全体をキャプチャする新しい定式化である attentionLens を導入する。
本実験は,注目テンソルが,解釈可能性とモデル理解を目的としたツール開発のための強力な基盤となることを実証した。
論文 参考訳(メタデータ) (2026-01-25T19:21:25Z) - Towards A Unified PAC-Bayesian Framework for Norm-based Generalization Bounds [63.47271262149291]
PAC-Bayesianノルムに基づく一般化のための統一的なフレームワークを提案する。
提案手法の鍵となるのは、構造的重み摂動に関してネットワーク出力を定量化する感度行列である。
我々は、いくつかの既存のPAC-ベイジアン結果を特殊ケースとして回復する一般化境界の族を導出する。
論文 参考訳(メタデータ) (2026-01-13T00:42:22Z) - Quantitative Bounds for Length Generalization in Transformers [58.175107357008876]
変圧器における長さ一般化(LG)問題について検討する。
LGは、長い列上の変圧器の内部挙動が短い列上の振舞いによって「シミュレート」できるときに発生する。
論文 参考訳(メタデータ) (2025-10-30T21:31:36Z) - Implicit Bias of Spectral Descent and Muon on Multiclass Separable Data [33.082961718280245]
p-ノルム正規化急勾配 (NSD) と運動量急勾配 (NMD) に対する暗黙的最適化バイアスの完全な特徴付けを行う。
これらのアルゴリズムは行列の p-ノルムに関してマージンを最大化する解に収束することを示した。
論文 参考訳(メタデータ) (2025-02-07T05:09:32Z) - A Formal Framework for Understanding Length Generalization in Transformers [14.15513446489798]
因果変換器における長さ一般化を解析するための厳密な理論的枠組みを導入する。
我々は,この理論を,アルゴリズムおよび形式言語タスクにおける長さ一般化の成功と失敗の予測器として実験的に検証した。
論文 参考訳(メタデータ) (2024-10-03T01:52:01Z) - Sequence Length Independent Norm-Based Generalization Bounds for
Transformers [21.2523248114561]
本稿では,入力シーケンス長に依存しないトランスフォーマーアーキテクチャに対して,ノルムに基づく一般化境界を提供する。
変換器のラデマッハ複雑性の上界への有界線型変換の関数クラスに対して、3つの新しい被覆数境界を用いる。
論文 参考訳(メタデータ) (2023-10-19T18:31:09Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - The Sample Complexity of One-Hidden-Layer Neural Networks [57.6421258363243]
本研究では,スカラー値を持つ一層ネットワークのクラスとユークリッドノルムで有界な入力について検討する。
隠蔽層重み行列のスペクトルノルムの制御は、一様収束を保証するには不十分であることを示す。
スペクトルノルム制御が十分であることを示す2つの重要な設定を解析する。
論文 参考訳(メタデータ) (2022-02-13T07:12:02Z) - Total Deep Variation: A Stable Regularizer for Inverse Problems [71.90933869570914]
本稿では,データ駆動型汎用全深度変動正規化器について紹介する。
コアでは、畳み込みニューラルネットワークが複数のスケールや連続したブロックで局所的な特徴を抽出する。
我々は多数の画像処理タスクに対して最先端の結果を得る。
論文 参考訳(メタデータ) (2020-06-15T21:54:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。