論文の概要: Compressible Softmax-Attended Language under Incompressible Attention
- arxiv url: http://arxiv.org/abs/2604.04384v1
- Date: Mon, 06 Apr 2026 03:18:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.076235
- Title: Compressible Softmax-Attended Language under Incompressible Attention
- Title(参考訳): 非圧縮性注意下における圧縮性軟質言語
- Authors: Wonsuk Lee,
- Abstract要約: ロージットエネルギー場$tildeE$は、2-11特異成分の分散の90%に達する。
注意機構はすべての$d_h$次元でキャパシティを均一に割り当てるが、言語は実際のインタラクションを少数のものに集約する。
ソフトマックス適応言語の圧縮性は、分析するフレームではなく、データの特性である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Across every attention head in five transformer language models (124M--7B parameters, four architecture families), the logit energy field $\tilde{E}$ reaches 90\% of its variance in 2--11 singular components. The \emph{learned} interaction matrix $W_Q^\mathrm{T} W_K$ needs 38--75 components for the same threshold out of $d_h \in \{64, 128\}$. The spectral gap is $5$--$25\times$ in effective rank. The attention mechanism allocates capacity uniformly across all $d_h$ dimensions, but language concentrates the actual interaction into a few. The compressibility of softmax-attended language is a property of the data, not the frame that analyzes it.
- Abstract(参考訳): 5つの変圧器言語モデル(124M--7Bパラメータ、4つのアーキテクチャファミリ)のすべての注目点において、ロジットエネルギー場$\tilde{E}$は2-11特異成分の分散の90%に達する。
emph{learned} 相互作用行列 $W_Q^\mathrm{T} W_K$ は、$d_h \in \{64, 128\}$と同じ閾値の38-75成分を必要とする。
注意機構はすべての$d_h$次元でキャパシティを均一に割り当てるが、言語は実際のインタラクションを少数のものに集約する。
ソフトマックス適応言語の圧縮性は、分析するフレームではなく、データの特性である。
関連論文リスト
- Coupled Query-Key Dynamics for Attention [6.775853253396773]
スコア付けする前に、共有された学習力学を通して進化するクエリとキーを瞬時に示す。
60MパラメータのWikiText-103では、結合力学は22.55--22.62パープレキシティ(英語版)と24.22のパープレキシティ(英語版)を達成する。
論文 参考訳(メタデータ) (2026-04-02T06:37:05Z) - Spectral Edge Dynamics of Training Trajectories: Signal--Noise Geometry Across Scales [0.0]
コンヒーレントな方向のみにおいてトランスフォーマー訓練軌道が発展することを示す。
共同作業では、同じスペクトル幾何学がグラッキングの早期警戒信号を提供する。
論文 参考訳(メタデータ) (2026-03-14T04:46:05Z) - Rank-Aware Spectral Bounds on Attention Logits for Stable Low-Precision Training [0.0]
変圧器における注意スコアは、低精度トレーニングにおけるオーバーフローリスクを最大で支配する2次形式である$S_ij = x_itop M x_j / sqrtd_h$である。
相互作用行列 $M = WQ WKtop$ が階数 $r ll d$ を持つとき、$max_i,j|S_ij|$ は $exp(-d22/) となる。
論文 参考訳(メタデータ) (2026-02-21T14:29:22Z) - Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space [56.37266873329401]
大規模言語モデル (LLM) は、高度に一様でない情報密度を示す言語にもかかわらず、全てのトークンに一様計算を適用する。
我々は,潜在表現から意味境界を学習し,トークンから推論がより効率的である圧縮概念空間へ移行する階層型言語モデリングフレームワークである$textbfDynamic Large Concept Models (DLCM)$を提案する。
論文 参考訳(メタデータ) (2025-12-31T04:19:33Z) - Attention with Trained Embeddings Provably Selects Important Tokens [73.77633297039097]
トーケン埋め込みは言語モデリングにおいて重要な役割を担っているが、この実践的関連性にもかかわらず、理論的な理解は限られている。
本論文は,勾配降下法により得られた埋め込み構造を特徴付けることにより,そのギャップを解消する。
実世界のデータセット(IMDB、Yelp)の実験では、我々の理論が明らかにしたものに近い現象が示されている。
論文 参考訳(メタデータ) (2025-05-22T21:00:09Z) - How Sparse Attention Approximates Exact Attention? Your Attention is Naturally $n^C$-Sparse [9.552839922307587]
スパース注意(英: Sparse Attention)とは、標準的な注意計算と準四分法的な複雑性を近似する手法である。
KVキャッシュのプルーニング、スパースベースの高速注意、スパーストランスフォーマーといったテクニックのバリエーションは、効率的なLLM(Large Language Models)デプロイメントに広く利用されている。
論文 参考訳(メタデータ) (2024-04-03T12:37:34Z) - Near-optimal fitting of ellipsoids to random points [68.12685213894112]
楕円体をランダムな点に合わせるという基本的な問題は、低ランク行列分解、独立成分分析、主成分分析に関係している。
我々はこの予想を、ある$n = Omega(, d2/mathrmpolylog(d))$ に対する適合楕円体を構成することで対数的因子まで解決する。
我々の証明は、ある非標準確率行列の便利な分解を用いて、サンダーソン等最小二乗構成の実現可能性を示す。
論文 参考訳(メタデータ) (2022-08-19T18:00:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。