論文の概要: Rethinking Dense Linear Transformations: Stagewise Pairwise Mixing (SPM) for Near-Linear Training in Neural Networks
- arxiv url: http://arxiv.org/abs/2512.23905v1
- Date: Tue, 30 Dec 2025 00:03:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.237812
- Title: Rethinking Dense Linear Transformations: Stagewise Pairwise Mixing (SPM) for Near-Linear Training in Neural Networks
- Title(参考訳): 密度線形変換の再考:ニューラルネットワークにおける準線形学習のための段階的ペアワイズ混合(SPM)
- Authors: Peter Farag,
- Abstract要約: 本稿では,高密度行列をスパースなペアワイズ混合段階の合成に置き換える構造的線形作用素であるStagewise Pairwise Mixers (SPM)を紹介する。
実世界のベンチマークでは競合性能を維持しつつ,ウォールクロックコストを大幅に削減し,構造化学習問題に対する精度を向上した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense linear layers are a dominant source of computational and parametric cost in modern machine learning models, despite their quadratic complexity and often being misaligned with the compositional structure of learned representations. We introduce Stagewise Pairwise Mixers (SPM), a structured linear operator that replaces dense matrices with a composition of sparse pairwise-mixing stages. An SPM layer implements a global linear transformation in $O(nL)$ time with $O(nL)$ parameters, where $L$ is typically constant or $log_2n$, and admits exact closed-form forward and backward computations. SPM is designed as a drop-in replacement for dense linear layers in feedforward networks, recurrent architectures, attention mechanisms, etc. We derive complete forward and backward expressions for two parameterizations: an orthogonal norm-preserving rotation-based variant and a fully general $2 \times 2$ mixing variant. Beyond computational savings, the stagewise structure of SPM induces an explicit compositional inductive bias that constrains model capacity and improves generalization when aligned with task structure. We present proof-of-concept experiments demonstrating substantial reductions in wall-clock cost and improved accuracy on structured learning problems, while retaining competitive performance on real-world benchmarks.
- Abstract(参考訳): 密度線形層は、その二次的な複雑さにもかかわらず、現代の機械学習モデルにおいて計算とパラメトリックコストの主要な源であり、しばしば学習された表現の構成構造と一致しない。
本稿では,高密度行列をスパースなペアワイズ混合段階の合成に置き換える構造的線形作用素であるStagewise Pairwise Mixers (SPM)を紹介する。
SPM層は、$O(nL)$Time with $O(nL)$パラメータで大域線形変換を実装し、$L$は通常定数または$log_2n$であり、正確な閉形式前方および後方計算を許容する。
SPMは、フィードフォワードネットワーク、リカレントアーキテクチャ、アテンションメカニズムなどにおける高密度線形層のドロップイン置換として設計されている。
我々は、直交ノルム保存回転に基づく変種と、完全に一般的な2ドルの2$混合変種という2つのパラメータ化に対して、完全な前方および後方表現を導出する。
計算保存の他に、SPMの段階的な構造は、モデルキャパシティを制約し、タスク構造に整合する際の一般化を改善する明示的な構成帰納バイアスを誘導する。
本稿では,実世界のベンチマークにおける競合性能を維持しつつ,ウォールクロックコストの大幅な削減と構造化学習問題の精度向上を実証した概念実証実験を提案する。
関連論文リスト
- Differentiable Sparsity via $D$-Gating: Simple and Versatile Structured Penalization [22.883367233817836]
D$-Gatingは、理論上、元の群疎性問題の解法と等価であることを示す。
ビジョン、言語、タスクにまたがって私たちの理論を検証する。
論文 参考訳(メタデータ) (2025-09-28T14:08:29Z) - Tensor Decomposition Networks for Fast Machine Learning Interatomic Potential Computations [48.46721044282335]
テンソル分解ネットワーク(TDN)は、計算処理の劇的な高速化と競合する性能を実現する。
1億5500万のDFT計算スナップショットを含む分子緩和データセットPubChemQCRのTDNを評価した。
その結果,TDNは計算処理の劇的な高速化と競合する性能を示した。
論文 参考訳(メタデータ) (2025-07-01T18:46:27Z) - Scaling Up Liquid-Resistance Liquid-Capacitance Networks for Efficient Sequence Modeling [50.994194925685434]
LrcSSMは$textitnon-linear$リカレントモデルで、現在の線形状態空間層と同じくらい高速に長いシーケンスを処理する。
ヤコビ行列を対角線に強制することにより、全列を並列に解くことができる。
LrcSSMは、Liquid-S4のような他の入力変化系が提供しないことを保証する形式的な勾配安定性を提供する。
論文 参考訳(メタデータ) (2025-05-27T20:02:59Z) - Structured Linear CDEs: Maximally Expressive and Parallel-in-Time Sequence Models [15.650005330621148]
本研究は、構造線形制御微分方程式(SLiCE)を導入する。
これは、構造化された入力依存状態遷移行列を持つシーケンスモデルの統一フレームワークである。
SLiCE はブロック対角行列、スパース行列、ウォルシュ・アダマール行列を用いる。
論文 参考訳(メタデータ) (2025-05-23T11:34:21Z) - The Sample Complexity of Online Reinforcement Learning: A Multi-model Perspective [55.15192437680943]
連続状態と行動空間を持つ非線形力学系の一般設定におけるオンライン強化学習のサンプル複雑性について検討した。
我々のアルゴリズムは、$mathcalO(N epsilon2 + Mathrmln(m(epsilon)/epsilon2)$のポリシーを後悔する。
力学がコンパクトで実数値のパラメータ集合によってパラメータ化される特別な場合、$mathcalO(sqrt)のポリシー後悔を証明する。
論文 参考訳(メタデータ) (2025-01-27T10:01:28Z) - In-context Learning for Mixture of Linear Regressions: Existence, Generalization and Training Dynamics [34.458004744956334]
高い確率で$mathcalO(sqrtd/n)$の予測誤差を達成できる変換器が存在することを証明した。
また, 1 つの線形自己アテンション層を持つ変圧器のトレーニング力学を解析し, 適切なパラメータで, 人口平均平方損失に対する勾配流の最適化が大域的最適に収束することを示した。
論文 参考訳(メタデータ) (2024-10-18T05:28:47Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Improving the Sample-Complexity of Deep Classification Networks with
Invariant Integration [77.99182201815763]
変換によるクラス内分散に関する事前知識を活用することは、ディープニューラルネットワークのサンプル複雑性を改善するための強力な方法である。
そこで本研究では,アプリケーションの複雑な問題に対処するために,プルーニング法に基づく新しい単項選択アルゴリズムを提案する。
本稿では,Rotated-MNIST,SVHN,CIFAR-10データセットにおけるサンプルの複雑さの改善について述べる。
論文 参考訳(メタデータ) (2022-02-08T16:16:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。