論文の概要: Scaling of Gaussian Kolmogorov--Arnold Networks
- arxiv url: http://arxiv.org/abs/2604.21174v1
- Date: Thu, 23 Apr 2026 00:41:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.222074
- Title: Scaling of Gaussian Kolmogorov--Arnold Networks
- Title(参考訳): ガウス・コルモゴロフのスケーリング-アルノルドネットワーク
- Authors: Amir Noorizadegan, Sifan Wang,
- Abstract要約: ガウスカンが第1層の特徴幾何、条件付け、近似行動によってどのように影響するかを考察する。
この範囲は, 固定スケール選択, 可変スケール構成, () の制約付きトレーニング, および, MSE を用いた効率的なスケール探索に有用であることを示す。
- 参考スコア(独自算出の注目度): 2.589700903743416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Gaussian scale parameter \(ε\) is central to the behavior of Gaussian Kolmogorov--Arnold Networks (KANs), yet its role in deep edge-based architectures has not been studied systematically. In this paper, we investigate how \(ε\) affects Gaussian KANs through first-layer feature geometry, conditioning, and approximation behavior. Our central observation is that scale selection is governed primarily by the first layer, since it is the only layer constructed directly on the input domain and any loss of distinguishability introduced there cannot be recovered by later layers. From this viewpoint, we analyze the first-layer feature matrix and identify a practical operating interval, \[ ε\in \left[\frac{1}{G-1},\frac{2}{G-1}\right], \] where \(G\) denotes the number of Gaussian centers. For the standard shared-center Gaussian KAN used in current practice, we interpret this interval not as a universal optimality result, but as a stable and effective design rule, and validate it through brute-force sweeps over \(ε\) across function-approximation problems with different collocation densities, grid resolutions, network architectures, and input dimensions, as well as a physics-informed Helmholtz problem. We further show that this range is useful for fixed-scale selection, variable-scale constructions, constrained training of \(ε\), and efficient scale search using early training MSE. Finally, using a matched Chebyshev reference, we show that a properly scaled Gaussian KAN can already be competitive in accuracy relative to another standard KAN basis. In this way, the paper positions scale selection as a practical design principle for Gaussian KANs rather than as an ad hoc hyperparameter choice.
- Abstract(参考訳): ガウシアンスケールパラメータ \(ε\) はガウシアン・コルモゴロフ-アルノルドネットワーク(KAN)の挙動の中心であるが、深層アーキテクチャにおけるその役割は体系的に研究されていない。
本稿では,<(ε\) がガウスカンにどのように影響するかを,第一層特徴幾何,条件付け,近似の振る舞いを通じて検討する。
我々の中心的な観察では、スケール選択は第一層が中心であり、これは入力ドメイン上に直接構築された唯一の層であり、そこで導入された識別可能性の喪失は後層では回復できないためである。
この観点から、第1層の特徴行列を解析し、実用的な操作区間である \[ ε\in \left[\frac{1}{G-1},\frac{2}{G-1}\right], \] を同定する。
現在の実践で使用される標準共有中心のガウスカンに対しては、この区間を普遍的最適性の結果ではなく、安定かつ効果的な設計規則として解釈し、異なるコロケーション密度、グリッド分解能、ネットワークアーキテクチャ、入力次元を持つ関数近似問題に対して \(ε\) 上のブルート・フォース・スイープ(brute-force sweeps over \(ε\)) を通して検証する。
さらに, この範囲は, 固定スケール選択, 可変スケール構成, \(ε\) の制約付きトレーニング, 早期学習 MSE を用いた効率的なスケール探索に有用であることを示す。
最後に、一致したチェビシェフ参照を用いて、適切なスケールのガウスカンが、他の標準カンベースと比較して既に精度で競合可能であることを示す。
このようにして、この論文はスケール選択を、アドホックなハイパーパラメータ選択ではなく、ガウスカンの実践的な設計原則として位置づける。
関連論文リスト
- Variational Kernel Design for Internal Noise: Gaussian Chaos Noise, Representation Compatibility, and Reliable Deep Learning [0.0]
ディープネットワークの内部ノイズは通常、ドロップアウト、ハードマスキング、加法摂動などの摂動から受け継がれる。
内部ノイズはどのような相関幾何学を持つべきで、実装された摂動はそれらが作用する表現と互換性があるのか?
本稿では,法則ファミリ,相関カーネル,インジェクション演算子によってノイズ機構が特定され,デシダラタの学習から導出されるフレームワークである変分カーネル設計(VKD)を通じて,これらの疑問に答える。
論文 参考訳(メタデータ) (2026-03-18T05:12:56Z) - K-DAREK: Distance Aware Error for Kurkova Kolmogorov Networks [3.460138063155115]
我々はクルコバ・コルモゴロフネットワーク(K-DAREK)に対する新しい学習アルゴリズムを開発した。
提案手法は,距離を意識した頑健な誤差境界を確立する。つまり,テストポイントから最寄りのトレーニングポイントまでの距離を反映する。
論文 参考訳(メタデータ) (2025-10-24T20:49:59Z) - Gaussian Primitive Optimized Deformable Retinal Image Registration [19.882820812725523]
変形性網膜画像登録は、大きな同種領域とスパースだが重要な血管的特徴のため、非常に困難である。
これらの課題を克服するために、構造化メッセージパッシングを実行する新しい反復的フレームワークを導入する。
FIREデータセットの実験では、GPOはターゲット登録エラーを6.2,pxから2.4,pxに減らし、AUCを0.770から0.938に増やしている。
論文 参考訳(メタデータ) (2025-08-23T00:44:50Z) - Convergence of Implicit Gradient Descent for Training Two-Layer Physics-Informed Neural Networks [4.554284689395686]
暗黙的勾配降下(IGD)は、ある種のマルチスケール問題を扱う場合、共通勾配降下(GD)アルゴリズムより優れている。
IGDは線形収束速度で大域的最適解に収束することを示す。
論文 参考訳(メタデータ) (2024-07-03T06:10:41Z) - Promises and Pitfalls of the Linearized Laplace in Bayesian Optimization [73.80101701431103]
線形化ラプラス近似(LLA)はベイズニューラルネットワークの構築に有効で効率的であることが示されている。
ベイズ最適化におけるLLAの有用性について検討し,その性能と柔軟性を強調した。
論文 参考訳(メタデータ) (2023-04-17T14:23:43Z) - On the Effect of Initialization: The Scaling Path of 2-Layer Neural
Networks [21.69222364939501]
教師付き学習では、正規化経路はゼロからの勾配降下の最適化経路の便利な理論的プロキシとして用いられることがある。
この経路がカーネルとリッチレジームの間に連続的に補間されていることを示す。
論文 参考訳(メタデータ) (2023-03-31T05:32:11Z) - NAG-GS: Semi-Implicit, Accelerated and Robust Stochastic Optimizer [45.47667026025716]
2つの重要な要素に依存した、新しく、堅牢で、加速された反復を提案する。
NAG-GSと呼ばれる手法の収束と安定性は、まず広範に研究されている。
我々は、NAG-arityが、重量減衰を伴う運動量SGDや機械学習モデルのトレーニングのためのAdamWといった最先端の手法と競合していることを示す。
論文 参考訳(メタデータ) (2022-09-29T16:54:53Z) - What Are Bayesian Neural Network Posteriors Really Like? [63.950151520585024]
ハミルトニアンモンテカルロは、標準およびディープアンサンブルよりも大きな性能向上を達成できることを示す。
また,深部分布は標準SGLDとHMCに類似しており,標準変動推論に近いことが示された。
論文 参考訳(メタデータ) (2021-04-29T15:38:46Z) - Making Affine Correspondences Work in Camera Geometry Computation [62.7633180470428]
局所的な特徴は、ポイント・ツー・ポイント対応ではなく、リージョン・ツー・リージョンを提供する。
本稿では,全モデル推定パイプラインにおいて,地域間マッチングを効果的に活用するためのガイドラインを提案する。
実験により、アフィンソルバはより高速な実行時にポイントベースソルバに匹敵する精度を達成できることが示された。
論文 参考訳(メタデータ) (2020-07-20T12:07:48Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Gradient Centralization: A New Optimization Technique for Deep Neural
Networks [74.935141515523]
勾配集中(GC)は、勾配ベクトルをゼロ平均とする集中化によって、勾配を直接操作する。
GCは、制約された損失関数を持つ射影勾配降下法とみなすことができる。
GCは実装が非常に簡単で、1行のコードだけで既存のグラデーションベースのDNNに簡単に組み込める。
論文 参考訳(メタデータ) (2020-04-03T10:25:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。