論文の概要: Sprecher Networks: A Parameter-Efficient Kolmogorov-Arnold Architecture
- arxiv url: http://arxiv.org/abs/2512.19367v1
- Date: Mon, 22 Dec 2025 13:09:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.764931
- Title: Sprecher Networks: A Parameter-Efficient Kolmogorov-Arnold Architecture
- Title(参考訳): Sprecher Networks: パラメータ効率の良いKolmogorov-Arnoldアーキテクチャ
- Authors: Christian Hägg, Kathlén Kohn, Giovanni Luca Marchetti, Boris Shapiro,
- Abstract要約: 我々は,古典的コルモゴロフ・アルノルド=シュプレッヒェ(KAS)構築に触発された,トレーニング可能なニューラルネットワークのファミリーであるSprecher Networks(SNs)を紹介する。
SNは、明示的なシフトパラメータと混合重みを取り入れた共有学習可能なスプラインを構造化ブロック内で利用する。
これらのブロックをディープネットワークに組み込むと、パラメータやメモリ効率の高いモデルが得られることを実証的に実証する。
- 参考スコア(独自算出の注目度): 5.869449310299287
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Sprecher Networks (SNs), a family of trainable neural architectures inspired by the classical Kolmogorov-Arnold-Sprecher (KAS) construction for approximating multivariate continuous functions. Distinct from Multi-Layer Perceptrons (MLPs) with fixed node activations and Kolmogorov-Arnold Networks (KANs) featuring learnable edge activations, SNs utilize shared, learnable splines (monotonic and general) within structured blocks incorporating explicit shift parameters and mixing weights. Our approach directly realizes Sprecher's specific 1965 sum of shifted splines formula in its single-layer variant and extends it to deeper, multi-layer compositions. We further enhance the architecture with optional lateral mixing connections that enable intra-block communication between output dimensions, providing a parameter-efficient alternative to full attention mechanisms. Beyond parameter efficiency with $O(LN + LG)$ scaling (where $G$ is the knot count of the shared splines) versus MLPs' $O(LN^2)$, SNs admit a sequential evaluation strategy that reduces peak forward-intermediate memory from $O(N^2)$ to $O(N)$ (treating batch size as constant), making much wider architectures feasible under memory constraints. We demonstrate empirically that composing these blocks into deep networks leads to highly parameter and memory-efficient models, discuss theoretical motivations, and compare SNs with related architectures (MLPs, KANs, and networks with learnable node activations).
- Abstract(参考訳): 我々は,古典的Kolmogorov-Arnold-Sprecher (KAS)構築にインスパイアされた,訓練可能なニューラルネットワークのファミリーであるSprecher Networks (SNs)を提案する。
ノードアクティベーションが固定されたMulti-Layer Perceptrons (MLP) と、学習可能なエッジアクティベーションを備えたKolmogorov-Arnold Networks (KANs) との区別は、SNは明示的なシフトパラメータと混合重みを取り入れた構造化ブロック内で共有され学習可能なスプライン(単調および一般)を利用する。
提案手法は,スプリーチャーの1965年のシフトスプライン式を1層変種で直接的に実現し,より深い多層合成へと拡張する。
さらに、出力次元間のブロック内通信を可能にするオプションの外側混合接続により、アーキテクチャをさらに強化し、フルアテンション機構に代わるパラメータ効率の高い代替手段を提供する。
パラメータ効率の他に、$O(LN + LG)$スケーリング($G$は共有スプラインの結び目数)、MLPの$O(LN^2)$、SNsは、ピーク前の中間メモリを$O(N^2)$から$O(N)$(バッチサイズを定数として扱う)に減らすシーケンシャルな評価戦略を認め、メモリ制約の下でより広いアーキテクチャを実現する。
本研究では,これらのブロックをディープネットワークに構成することで,パラメータとメモリ効率のよいモデルが実現し,理論的モチベーションを議論し,SNと関連するアーキテクチャ(MLP,kan,学習可能なノードアクティベーションを持つネットワーク)を比較した。
関連論文リスト
- GS-KAN: Parameter-Efficient Kolmogorov-Arnold Networks via Sprecher-Type Shared Basis Functions [0.0]
我々は、David Sprecherの重ね合わせ定理の洗練に触発された軽量アーキテクチャであるGS-KAN(Generalized Sprecher-KAN)を提案する。
GS-KANは、学習可能な線形変換を1層に1つの学習可能な共有親関数に適用することにより、独自のエッジ関数を構築する。
その結果,GS-KANはパラメータ効率を向上しつつ,連続関数タスクにおける近似と標準kanベースラインの両方に優れていた。
論文 参考訳(メタデータ) (2025-12-09T19:56:36Z) - QuantKAN: A Unified Quantization Framework for Kolmogorov Arnold Networks [6.860988566886594]
Kolmogorov Arnold Networks (KAN) は、線形変換をスプラインベースの関数近似に置き換え、ネットワークエッジに沿って分散する。
カンは強い表現性と解釈性を提供するが、その不均一なスプラインと基底分岐パラメータは効率的な量子化を妨げる。
我々は、量子化意識トレーニング(QAT)とポストトレーニング量子化システムの両方にまたがって、kanを量子化する統合フレームワークであるQuantKANを提案する。
論文 参考訳(メタデータ) (2025-11-24T02:05:16Z) - Deep Hierarchical Learning with Nested Subspace Networks [53.71337604556311]
大規模ニューラルネットワークのためのNested Subspace Networks (NSN)を提案する。
NSNは、単一のモデルを連続した計算予算の範囲で動的かつきめ細かな調整を可能にする。
我々は,NSNを訓練済みのLLMに外科的に適用し,スムーズで予測可能な計算性能フロンティアを解き放つことができることを示した。
論文 参考訳(メタデータ) (2025-09-22T15:13:14Z) - CoNNect: Connectivity-Based Regularization for Structural Pruning [0.0]
CoNNectは、スパースNNトレーニングのための新しい差別化可能なレギュレータである。
CoNNectは、レイヤ崩壊などの問題を回避しながら、最大接続されたネットワーク構造を保証する。
論文 参考訳(メタデータ) (2025-02-02T10:32:55Z) - Incorporating Arbitrary Matrix Group Equivariance into KANs [69.30866522377694]
Kolmogorov-Arnold Networks (KAN) は科学分野で大きな成功を収めている。
本研究では,Equivariant Kolmogorov-Arnold Networks (EKAN)を提案する。
論文 参考訳(メタデータ) (2024-10-01T06:34:58Z) - HyperZ$\cdot$Z$\cdot$W Operator Connects Slow-Fast Networks for Full
Context Interaction [0.0]
自己注意機構は、ドット製品ベースのアクティベーションを通じてプログラムされた大きな暗黙の重み行列を利用して、訓練可能なパラメータがほとんどないため、長いシーケンスモデリングを可能にする。
本稿では,ネットワークの各層におけるコンテキストの完全な相互作用を実現するために,大きな暗黙のカーネルを用いて残差学習を破棄する可能性について検討する。
このモデルにはいくつかの革新的なコンポーネントが組み込まれており、遅いネットワークを更新するための局所的なフィードバックエラー、安定なゼロ平均機能、より高速なトレーニング収束、より少ないモデルパラメータなど、優れた特性を示している。
論文 参考訳(メタデータ) (2024-01-31T15:57:21Z) - Kronecker-Factored Approximate Curvature for Modern Neural Network
Architectures [85.76673783330334]
線形重み付け層の2つの異なる設定がクロネッカー型近似曲率(K-FAC)の2つの風味を動機付けている
重み付けをそれぞれ設定したディープ・リニア・ネットワークに対して正確であることを示す。
グラフニューラルネットワークと視覚変換器の両方をトレーニングするために、これらの2つのK-FACの違いをほとんど観測しない。
論文 参考訳(メタデータ) (2023-11-01T16:37:00Z) - Parameterization of Cross-Token Relations with Relative Positional
Encoding for Vision MLP [52.25478388220691]
視覚多層パーセプトロン(MLP)はコンピュータビジョンタスクにおいて有望な性能を示す。
トークンミキシングレイヤを使用して、トランスフォーマーが使用するマルチヘッド自己保持機構とは対照的に、クロストークンインタラクションをキャプチャする。
トークン混合のためのクロストークン関係を効率的に符号化する新しい位置空間ゲーティングユニット(PoSGU)を提案する。
論文 参考訳(メタデータ) (2022-07-15T04:18:06Z) - Neural Parameter Allocation Search [57.190693718951316]
ニューラルネットワークのトレーニングには、メモリの量を増やす必要がある。
既存の手法では、ネットワークには多くの同一層があり、一般化に失敗する手作りの共有戦略を利用する。
我々は、任意のパラメータ予算を与えられたニューラルネットワークをトレーニングする新しいタスクであるNPAS(Neural Allocation Search)を紹介する。
NPASは、コンパクトネットワークを創出する低予算体制と、推論FLOPを増大させることなく性能を高めるために、新たな高予算体制の両方をカバーしている。
論文 参考訳(メタデータ) (2020-06-18T15:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。