論文の概要: The Strong Lottery Ticket Hypothesis for Multi-Head Attention Mechanisms
- arxiv url: http://arxiv.org/abs/2511.04217v1
- Date: Thu, 06 Nov 2025 09:29:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.377175
- Title: The Strong Lottery Ticket Hypothesis for Multi-Head Attention Mechanisms
- Title(参考訳): マルチヘッド・アテンション・メカニズムのための強力なロッキー・チケット仮説
- Authors: Hikari Otsuka, Daiki Chijiwa, Yasuyuki Okoshi, Daichi Fujiki, Susumu Takeuchi, Masato Motomura,
- Abstract要約: 強い宝くじチケット仮説(SLTH)は、ハイパフォーマンスワークがランダムにSLTニューラルネットワークに隠されていることを予想している。
特に、SLTHの現在の理論は変圧器のコアコンポーネントであるマルチヘッドアテンション機構をまだ説明していない。
H$ヘッドのランダムな MHA と入力 $d$ が鍵と値に対して隠された次元 $O(dlog(Hd3/2)$ を持つなら、それは高い確率で同じ入力を持つ任意の MHA を近似する次元を含むことを証明している。
- 参考スコア(独自算出の注目度): 7.617362260095738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The strong lottery ticket hypothesis (SLTH) conjectures that high-performing subnetworks, called strong lottery tickets (SLTs), are hidden in randomly initialized neural networks. Although recent theoretical studies have established the SLTH across various neural architectures, the SLTH for transformer architectures still lacks theoretical understanding. In particular, the current theory of the SLTH does not yet account for the multi-head attention (MHA) mechanism, a core component of transformers. To address this gap, we introduce a theoretical analysis of the existence of SLTs within MHAs. We prove that, if a randomly initialized MHA of $H$ heads and input dimension $d$ has the hidden dimension $O(d\log(Hd^{3/2}))$ for the key and value, it contains an SLT that approximates an arbitrary MHA with the same input dimension with high probability. Furthermore, by leveraging this theory for MHAs, we extend the SLTH to transformers without normalization layers. We empirically validate our theoretical findings, demonstrating that the approximation error between the SLT within a source model (MHA and transformer) and an approximate target counterpart decreases exponentially by increasing the hidden dimension of the source model.
- Abstract(参考訳): 強宝くじ(SLTH)仮説は、強宝くじ(SLT)と呼ばれる高性能サブネットワークがランダムに初期化されたニューラルネットワークに隠されていることを予想している。
最近の理論的研究は、様々なニューラルネットワークアーキテクチャにわたるSLTHを確立しているが、トランスフォーマーアーキテクチャのためのSLTHは理論的な理解を欠いている。
特に、SLTHの現在の理論は変圧器のコアコンポーネントであるマルチヘッドアテンション(MHA)機構をまだ説明していない。
このギャップに対処するために、MHAにおけるSLTの存在に関する理論的解析を導入する。
H$ヘッドのランダムな初期化 MHA と入力次元 $d$ が鍵と値に対して隠された次元 $O(d\log(Hd^{3/2}))$ を持つ場合、高い確率で同じ入力次元の任意の MHA を近似する SLT を含むことを証明している。
さらに、この理論をMHAに活用することにより、正規化層を使わずにSLTHを変換器に拡張する。
実験により,ソースモデル(MHAと変換器)内のSLTと近似ターゲットとの近似誤差が,ソースモデルの隠れ次元を増大させることで指数関数的に減少することを示した。
関連論文リスト
- Demystifying Singular Defects in Large Language Models [61.98878352956125]
大規模言語モデル(LLM)では、ハイノームトークンの根本原因は未解明のままである。
理論的な洞察と経験的検証の両方を、近年のモデルで提供します。
量子化方式の改良とLCMシグネチャの設計の2つの実用的応用について述べる。
論文 参考訳(メタデータ) (2025-02-10T20:09:16Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Theoretical Foundations of Deep Selective State-Space Models [13.971499161967083]
ディープSSMは、さまざまなドメインセットで優れたパフォーマンスを示す。
最近の研究で、線形リカレンス電力が入力と隠れ状態の間の乗法的相互作用を可能にすることが示されている。
ランダム線形再帰が単純な入力制御遷移を備える場合、隠れ状態は強力な数学的対象の低次元射影であることを示す。
論文 参考訳(メタデータ) (2024-02-29T11:20:16Z) - Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative
Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。
従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文 参考訳(メタデータ) (2023-06-15T16:30:08Z) - Strong Lottery Ticket Hypothesis with $\varepsilon$--perturbation [11.38723572165938]
我々は、ロタリー・チケット仮説の理論的保証を、元のLTHとより類似したシナリオに拡張する。
ランダム初期重みに対する$varepsilon$-scale摂動を許容することにより、強いLTHにおける候補ネットワークの過剰パラメータ化要求を軽減できるだろうか?
予測されたSGDの摂動重みは,強いLTHプルーニング条件下での良好な性能を示すことを示す。
論文 参考訳(メタデータ) (2022-10-29T12:22:17Z) - What Are Bayesian Neural Network Posteriors Really Like? [63.950151520585024]
ハミルトニアンモンテカルロは、標準およびディープアンサンブルよりも大きな性能向上を達成できることを示す。
また,深部分布は標準SGLDとHMCに類似しており,標準変動推論に近いことが示された。
論文 参考訳(メタデータ) (2021-04-29T15:38:46Z) - Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。
種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。
共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文 参考訳(メタデータ) (2020-10-01T17:51:49Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。