論文の概要: A Unified Framework for Critical Scaling of Inverse Temperature in Self-Attention
- arxiv url: http://arxiv.org/abs/2605.12697v1
- Date: Tue, 12 May 2026 19:48:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.653748
- Title: A Unified Framework for Critical Scaling of Inverse Temperature in Self-Attention
- Title(参考訳): 自己注意における逆温度の臨界スケーリングのための統一フレームワーク
- Authors: Tomohiro Hayase, Ryo Karakida,
- Abstract要約: 所望のスケールは各注目行のギャップカウント関数$N_n$によって決定されることを示す。
最大から各ギャップ内にある競合の数を数えると、上尾の累積スケールを定義する。
このフレームワークは、事前のスケーリング法則を異なる$N_n$として統一し、アテンションスコアファミリーを直接診断する。
- 参考スコア(独自算出の注目度): 15.584040836686043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Length-dependent logit rescaling is widely used to stabilize long-context self-attention, but existing analyses and methods suggest conflicting inverse-temperature laws for the context length $n$, ranging from $(\log n)^{1/2}$ to $\log n$ and $(\log n)^2$. We provide a general theory showing that the desirable scale is determined by the gap-counting function $N_n$ of each attention row. Counting how many competitors lie within each gap from the maximum, we define an upper-tail accumulation scale and prove that it gives the critical inverse-temperature scale for softmax concentration: below this scale, the top competitors remain unseparated, whereas above it, the attention entropy collapses. This framework unifies prior scaling laws as different $N_n$ and yields a direct diagnostic for attention-score families, from idealized theoretical models to more practical transformers.
- Abstract(参考訳): 長さ依存ロジット再スケーリングは、長いコンテキストの自己アテンションを安定化するために広く用いられているが、既存の分析とメソッドは、コンテキスト長$n$の逆温度法則と矛盾することを示唆しており、$(\log n)^{1/2}$から$\log n$と$(\log n)^2$までである。
各注目行のギャップカウント関数$N_n$によって望ましいスケールが決定されることを示す一般的な理論を提供する。
最大から各ギャップ内に存在する競合の数を数えて、上尾の蓄積スケールを定義し、それがソフトマックス濃度に対する臨界逆温度スケールを与えることを証明している。
このフレームワークは、事前のスケーリング法則を異なる$N_n$として統一し、理想化された理論モデルからより実用的なトランスフォーマーまで、注意スコア族を直接診断する。
関連論文リスト
- Scaling Limits of Long-Context Transformers [24.95451131347537]
固定クエリとランダムコンテキストを用いたソフトマックス自己アテンションの長文制限について検討する。
選択度が出現する臨界スケールは,0 に近い距離-クエリ分布の局所指数によって決定されることを示す。
論文 参考訳(メタデータ) (2026-05-08T21:39:31Z) - Stochastic Gradient Descent in Non-Convex Problems: Asymptotic Convergence with Relaxed Step-Size via Stopping Time Methods [13.677904140815386]
Gradient Descent (SGD) は機械学習の研究で広く使われている。
本稿では,より緩やかなステップサイズ条件下でのSGDの収束解析法を提案する。
論文 参考訳(メタデータ) (2025-04-17T02:56:20Z) - A Unified Analysis for Finite Weight Averaging [50.75116992029417]
Gradient Descent(SGD)の平均イテレーションは、SWA(Weight Averaging)、EMA(Exponential moving Average)、LAWA(Latest Weight Averaging)といったディープラーニングモデルのトレーニングにおいて、経験的な成功を収めている。
本稿では、LAWAを有限重み平均化(FWA)として一般化し、最適化と一般化の観点からSGDと比較して、それらの利点を説明する。
論文 参考訳(メタデータ) (2024-11-20T10:08:22Z) - Beyond likelihood ratio bias: Nested multi-time-scale stochastic approximation for likelihood-free parameter estimation [49.78792404811239]
確率分析形式が不明なシミュレーションベースモデルにおける推論について検討する。
我々は、スコアを同時に追跡し、パラメータ更新を駆動する比率のないネスト型マルチタイムスケール近似(SA)手法を用いる。
我々のアルゴリズムは、オリジナルのバイアス$Obig(sqrtfrac1Nbig)$を排除し、収束率を$Obig(beta_k+sqrtfracalpha_kNbig)$から加速できることを示す。
論文 参考訳(メタデータ) (2024-11-20T02:46:15Z) - Convergence Rate Analysis of LION [54.28350823319057]
LION は、勾配カルシュ=クーン=T (sqrtdK-)$で測定された $cal(sqrtdK-)$ の反復を収束する。
従来のSGDと比較して,LIONは損失が小さく,性能も高いことを示す。
論文 参考訳(メタデータ) (2024-11-12T11:30:53Z) - Convergence of Unadjusted Langevin in High Dimensions: Delocalization of Bias [21.64772960240025]
問題の次元が$d$になるにつれて、所望の誤差内で収束を保証するのに必要なイテレーションの数が増加することを示す。
私たちが取り組んだ重要な技術的課題は、収束を測定するための$W_2,ellinfty$メートル法に一段階の縮約性がないことである。
論文 参考訳(メタデータ) (2024-08-20T01:24:54Z) - Quantum-critical properties of the one- and two-dimensional random transverse-field Ising model from large-scale quantum Monte Carlo simulations [0.0]
本研究では1次元と2次元でT = 0$の焼成障害を有する強磁性横磁場イジングモデルについて検討する。
実効的なゼロ温度シミュレーションの強調は、既存の文献におけるいくつかの矛盾を解消する。
論文 参考訳(メタデータ) (2024-03-08T11:20:42Z) - Adaptive, Doubly Optimal No-Regret Learning in Strongly Monotone and Exp-Concave Games with Gradient Feedback [75.29048190099523]
オンライン勾配降下(OGD)は、強い凸性や単調性仮定の下では二重最適であることが知られている。
本稿では,これらのパラメータの事前知識を必要としない完全適応型OGDアルゴリズム,textsfAdaOGDを設計する。
論文 参考訳(メタデータ) (2023-10-21T18:38:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。