論文の概要: Communication Dynamics Neural Networks: FFT-Diagonalized Layers for Improved Hessian Conditioning at Reduced Parameter Count
- arxiv url: http://arxiv.org/abs/2605.08171v1
- Date: Mon, 04 May 2026 23:43:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.420717
- Title: Communication Dynamics Neural Networks: FFT-Diagonalized Layers for Improved Hessian Conditioning at Reduced Parameter Count
- Title(参考訳): 通信ダイナミクスニューラルネットワーク:パラメータ数削減におけるヘッセン条件改善のためのFFT対角化層
- Authors: Lurong Pan,
- Abstract要約: 本稿では、ニューラルネット設計に同じ循環スペクトル機械を適用した。
重みに対する平均二乗損失のヘシアンは離散フーリエ変換によって対角化される。
Na D-ダブレットの親CD紙中のシャノンノイズレートα_CD = 0.0118は、転送可能で非軌道降下率を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Background and motivation. The Communication Dynamics (CD) framework, introduced in two earlier papers for atomic-energy prediction and field-induced superconductivity, treats each physical channel as a (2l+1)-vertex polygon whose discrete Fourier transform yields its energy spectrum. This paper applies the same circulant-spectral machinery to neural-network design. Layer construction. CDLinear is a block-circulant linear layer with block size B = 2l+1 and 1/B the parameter count of a dense layer of equal input/output dimensions. Three properties follow from the construction. (i) The Hessian of mean-squared loss with respect to the weights is diagonalized by the discrete Fourier transform, with eigenvalues |F[Xj](k)|^2 read directly from the input statistics (Theorem 1). (ii) Under input pre-whitening, the population Hessian condition number satisfies kappa = 1 exactly, with the empirical condition number bounded by 1+O(sqrt(B/N)) on N samples (Theorem 2). (iii) The Shannon noise rate alpha_CD = 0.0118 calibrated in the parent CD papers from the Na D-doublet specifies a transferable, non-arbitrary dropout rate. Empirical evaluation. A CDLinear MLP at B = 4 achieves 97.50% +/- 0.23% test accuracy with 2,380 parameters versus 98.15% +/- 0.47% for a parameter-matched dense MLP at 8,970 parameters, a 3.8x parameter reduction at 0.65% accuracy cost, within one standard deviation of the seed-to-seed spread. The CD-MLP mean Hessian condition number kappa = 1.9x10^4 is 310x smaller than the dense baseline kappa = 5.9x10^6, in quantitative agreement with Theorem 2.
- Abstract(参考訳): 背景と動機。
原子エネルギー予測と磁場誘起超伝導に関する2つの論文で紹介された通信ダイナミクス(CD)フレームワークは、それぞれの物理チャネルを(2l+1)-頂点ポリゴンとして扱い、離散フーリエ変換はそのエネルギースペクトルを生成する。
本稿では、ニューラルネット設計に同じ循環スペクトル機械を適用した。
層構造。
CDLinear はブロックサイズ B = 2l+1 と 1/B のブロック循環線形層であり、同じ入出力次元の高密度層のパラメータカウントである。
建設から3つの特性が続く。
(i)重みに関する平均二乗損失のヘシアンは離散フーリエ変換によって対角化され、固有値 |F[Xj](k)|^2 は入力統計から直接読み取られる(定理1)。
(二)入力前白化の下では、人口ヘッセン条件数は、Nサンプル上の1+O(sqrt(B/N))で有界な経験条件数で、kappa = 1 を正確に満足する(Theorem 2)。
第三に、NaD-ダブレットの親CD紙に校正されたシャノンノイズ率α_CD = 0.0118は、転送可能な非軌道降下率を示す。
経験的評価。
B = 4 の CDLinear MLP は 97.50% +/- 0.23% のテスト精度を 2,380 のパラメータで達成し、98.15% +/- 0.47% のパラメータマッチングされた高密度 MLP が 8,970 のパラメータで8,970 のパラメータで、3.8x のパラメータ還元が 0.65% の精度で達成される。
CD-MLPの平均 Hess 条件数 kappa = 1.9x10^4 は、Theorem 2 と定量的に一致して、密度の高いベースライン kappa = 5.9x10^6 よりも310倍小さい。
関連論文リスト
- Variance Is Not Importance: Structural Analysis of Transformer Compressibility Across Model Scales [0.0]
スペクトル圧縮,ブロックレベル関数置換,回転ベース量子化,アクティベーション幾何,適応早期出口について検討した。
圧縮に関連する5つの構造特性を同定する。
論文 参考訳(メタデータ) (2026-04-22T15:31:46Z) - Analytical Theory of Greedy Peeling for Bivariate Bicycle Codes and Two-Shot Streaming Decoding [0.0]
本稿では,回路レベルの雑音下での自転車符号のグリードピーニング復号法の解析理論について述べる。
遅延グレーディ復号器は, 同一の論理誤差率を維持しつつ, p = 10-3 での信念伝播 (BP) よりも330倍の遅延低減を実現する。
論文 参考訳(メタデータ) (2026-04-13T11:49:57Z) - THEIA: Learning Complete Kleene Three-Valued Logic in a Pure-Neural Modular Architecture [0.0]
THEIAは2.75Mのモジュラー・ニューラルアーキテクチャで、外部のシンボル推論や手書きのK3ゲートプリミティブを使わずにタスクデータから完全Kleene 3値論理(K3)真理表を学習する。
トランスフォーマーのベースラインは39の規則すべてで99%に到達し、フラットは0.04pp以内のフェーズ1の精度でTheIAと一致している。
論文 参考訳(メタデータ) (2026-04-13T10:44:15Z) - AXELRAM: Quantize Once, Never Dequantize [0.0]
AXELRAMは、量子化されたKVキャッシュインデックスから直接注目スコアを算出する。
我々は,根本原因をレイヤーワイド標準に追従し,ハードウェアコストゼロの破滅的なスパイクを排除した勾配のない符号パターン選択(200の候補,8のキャリブレーションサンプル,1回)を提案する。
論文 参考訳(メタデータ) (2026-04-03T02:03:38Z) - Tripartite information of free fermions: a universal entanglement coefficient from the sine kernel [51.56484100374058]
自由フェルミオンの3分割情報I_3を3つの隣接する幅wに分割した2次元格子上で検討する。
g(z) は z* = 1.329 +/- 0.001: で一意な零点を持ち、k_F w z* のモードは相互情報の独占に反する。
z ln z の領域法則項と z2 の項の2つの正確なキャンセルは、I_3 の組み合わせに固有のものである。
論文 参考訳(メタデータ) (2026-03-03T15:39:35Z) - Edge-aware baselines for ogbn-proteins in PyTorch Geometric: species-wise normalization, post-hoc calibration, and cost-accuracy trade-offs [45.88028371034407]
PyTorch Geometric におけるogbnタンパク質の再現可能なエッジ認識ベースラインを提案する。
最強のベースラインは、和ベースのエッジ・ツー・ノード機能を備えたGraphSAGEです。
レーベルごとの温度スケーリングとラベルごとの閾値は、AUCの変更を無視して、マイクロF1と期待キャリブレーション誤差(ECE)を大幅に改善する。
論文 参考訳(メタデータ) (2025-11-17T11:09:46Z) - KPZ scaling from the Krylov space [83.88591755871734]
近年,Cardar-Parisi-Zhangスケーリングをリアルタイムの相関器や自動相関器に示す超拡散が報告されている。
これらの結果から着想を得て,Krylov演算子に基づく相関関数のKPZスケーリングについて検討する。
論文 参考訳(メタデータ) (2024-06-04T20:57:59Z) - Nearly $d$-Linear Convergence Bounds for Diffusion Models via Stochastic
Localization [40.808942894229325]
データ次元において線形である第1収束境界を提供する。
拡散モデルは任意の分布を近似するために少なくとも$tilde O(fracd log2(1/delta)varepsilon2)$ stepsを必要とすることを示す。
論文 参考訳(メタデータ) (2023-08-07T16:01:14Z) - Physics-Informed Machine Learning Method for Large-Scale Data
Assimilation Problems [48.7576911714538]
我々は,未知のフラックス (Neumann) と様々なヘッド (Dirichlet) 境界条件を持つ地下流れをモデル化するための物理インフォームド条件付きKarhunen-Lo'eve展開法(PICKLE)を拡張した。
PICKLE法はMAP法と精度が比較できるが,大規模問題ではMAP法よりもはるかに高速であることを示す。
論文 参考訳(メタデータ) (2021-07-30T18:43:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。