論文の概要: PRISM: Deriving the Transformer as a Signal-Denoising Operator via Maximum Coding Rate Reduction
- arxiv url: http://arxiv.org/abs/2601.15540v1
- Date: Wed, 21 Jan 2026 23:52:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.451325
- Title: PRISM: Deriving the Transformer as a Signal-Denoising Operator via Maximum Coding Rate Reduction
- Title(参考訳): PRISM:最大符号化率低減による信号復調演算子としての変換器の導出
- Authors: Dongchen Huang,
- Abstract要約: ディープラーニングのためのホワイトボックスアテンションベースのアーキテクチャであるPrismを提案する。
プリズムは、その注意をスペクトル的に異なる体制に自然に専門化していることが示される。
以上の結果から,解釈可能性と性能はトレードオフではなく,原理的な構成によって統一可能であることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning models, particularly Transformers, are often criticized as "black boxes" and lack interpretability. We propose Prism, a white-box attention-based architecture derived from the principles of Maximizing Coding Rate Reduction ($\text{MCR}^2$). By modeling the attention mechanism as a gradient ascent process on a distinct signal-noise manifold, we introduce two physical constraints: an overcomplete dictionary to expand the representational phase space, and an irrational frequency separation ($π$-RoPE) to enforce incoherence between signal and noise subspaces. We demonstrate that these geometric inductive biases can be viewed as a physical constraint and they are sufficient to induce unsupervised functional disentanglement alone. Using TinyStories as a controlled testbed for verifying spectral dynamics, we observe that Prism spontaneously specializes its attention heads into spectrally distinct regimes: low-frequency heads capturing long-range causal dependencies (signal) and high-frequency heads handling local syntactic constraints (noise). Our results suggest that interpretability and performance are not a trade-off, but can be unified through principled geometric construction.
- Abstract(参考訳): ディープラーニングモデル、特にトランスフォーマーは、しばしば「ブラックボックス」として批判され、解釈性に欠ける。
そこで我々はPrismを提案する。Prismは、最大符号化レート削減(\text{MCR}^2$)の原理から導かれた、ホワイトボックスのアテンションベースのアーキテクチャである。
注意機構を信号-雑音多様体上の勾配上昇過程としてモデル化することにより、表現位相空間を拡大するオーバーコンプリート辞書と、信号と雑音部分空間の間の不整合を強制する不合理周波数分離(π$-RoPE)という2つの物理的制約を導入する。
これらの幾何学的帰納バイアスを物理的制約と見なすことができ、教師なし機能的ゆがみのみを誘導するのに十分であることを示す。
スペクトル力学を検証するための制御テストベッドとしてTinyStoriesを用いると、Prismはその注意ヘッドを、長距離因果依存性(信号)を捕捉する低周波ヘッドと局所統語的制約(雑音)を扱う高周波ヘッドに自然に特殊化する。
以上の結果から,解釈可能性と性能はトレードオフではなく,原理的な幾何学的構成によって統一可能であることが示唆された。
関連論文リスト
- The Homogeneity Trap: Spectral Collapse in Doubly-Stochastic Deep Networks [1.7523718031184992]
構造保存深層構造に固有の臨界スペクトル劣化現象を同定する。
最大エントロピーバイアスは混合作用素を均一なバリセンターへ誘導し、従属特異値 を抑えることを示す。
ネットワークの有効深度にリンクするスペクトル境界を導出し、高エントロピー制約が浅層受容場への特徴変換を制限することを示す。
論文 参考訳(メタデータ) (2026-01-05T13:09:42Z) - Out-of-Time-Order Correlator Spectroscopy [3.9083778058145864]
我々は,高次OTOCが量子信号処理の枠組みに適合していることを示した。
さらに、空間分解されたトランケートプロパゲータの特異値の変換により高次OTOCを一般化する。
これは従来のOTOCを、量子多体ダイナミクスのスクランブルとスペクトル構造を探索するためのモード解決ツールに拡張する。
論文 参考訳(メタデータ) (2025-11-27T17:42:51Z) - Avoided-crossings, degeneracies and Berry phases in the spectrum of quantum noise through analytic Bloch-Messiah decomposition [49.1574468325115]
解析的ブロッホ・メシア分解 (analytic Bloch-Messiah decomposition) は量子光学系の力学を特徴づけるためのアプローチを提供する。
単一パラメータが変化した場合,回避された交差は自然に発生し,特異ベクトルの過敏性をもたらすことを示す。
我々は,避けられた交差を意図的に設計することで,フォトニックシステムのスペクトル応答をプログラムできる可能性を強調した。
論文 参考訳(メタデータ) (2025-04-29T13:14:15Z) - Modelling 1/f Noise in TRNGs via Fractional Brownian Motion [1.3053649021965603]
乱数生成器のセキュリティは、複雑な1/falpha$位相ノイズのため、完全には理解されていない。
分数的なブラウン運動を包括的理論的枠組みとして導入し、ホワイトからフリック周波数ノイズまでのパワー・ロースペクトル密度を捉える。
論文 参考訳(メタデータ) (2024-10-18T06:38:34Z) - Transformer Normalisation Layers and the Independence of Semantic Subspaces [17.957364289876548]
我々は意味的部分空間を、注意分布を完全に決定できる潜在表現の任意の独立部分空間とみなす。
最先端の変圧器が使用する正規化層の配置であるPre-Normは,この能力に反することを示す。
標準値が$lesssim$10%で人工的に摂動されるとき、1%の回路崩壊率を観測する。
論文 参考訳(メタデータ) (2024-06-25T16:16:38Z) - Towards Training Without Depth Limits: Batch Normalization Without
Gradient Explosion [83.90492831583997]
バッチ正規化ネットワークは,信号伝搬特性を最適に保ちつつ,爆発的な勾配を回避することができることを示す。
線形アクティベーションとバッチ正規化を備えた多層パーセプトロン(MLP)を用いて,有界深度を実証する。
また、ある非線形活性化に対して同じ特性を経験的に達成する活性化整形法を設計する。
論文 参考訳(メタデータ) (2023-10-03T12:35:02Z) - Reminiscence of classical chaos in driven transmons [117.851325578242]
共振器外ドライブでさえ、トランスモンスペクトルの構造に強い変化をもたらし、その大部分がカオスであることを示す。
その結果、カオス誘起量子分解効果の出現を特徴付ける光子数しきい値が導かれる。
論文 参考訳(メタデータ) (2022-07-19T16:04:46Z) - Unraveling Attention via Convex Duality: Analysis and Interpretations of
Vision Transformers [52.468311268601056]
本稿では凸双対性のレンズを通して注意を解析する。
我々は、大域的最適性に対して解釈可能で解ける等価な有限次元凸問題を導出する。
自己認識ネットワークがトークンを暗黙的にクラスタリングする方法を示す。
論文 参考訳(メタデータ) (2022-05-17T04:01:15Z) - Robust, Nonparametric, Efficient Decomposition of Spectral Peaks under
Distortion and Interference [0.0]
本稿では, 高速フーリエ変換を用いて, 周波数スペクトルのスペクトルピークの分解法を提案する。
スペクトルのピークを擬対称関数としてモデル化する。そこでは、距離が大きくなると中心周波数の周りの非増加的な振る舞いが制約となる。
我々のアプローチは、観測システムによって引き起こされる可能性のあるスペクトルの任意の歪み、干渉、ノイズに対してより堅牢である。
論文 参考訳(メタデータ) (2022-04-18T17:08:37Z) - Attention is Not All You Need: Pure Attention Loses Rank Doubly
Exponentially with Depth [48.16156149749371]
この研究は、自己注意ネットワークを理解するための新しい方法を提案する。
それらの出力は、より小さな項の和に分解できることを示す。
我々は、自己意識が「トークン」に対して強い帰納的偏見を持っていることを証明している。
論文 参考訳(メタデータ) (2021-03-05T00:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。