論文の概要: Rethinking Nonlinearity: Trainable Gaussian Mixture Modules for Modern Neural Architectures
- arxiv url: http://arxiv.org/abs/2510.06660v1
- Date: Wed, 08 Oct 2025 05:20:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.312424
- Title: Rethinking Nonlinearity: Trainable Gaussian Mixture Modules for Modern Neural Architectures
- Title(参考訳): 非線形性を再考する:現代のニューラルネットワークのための訓練可能なガウス混合モジュール
- Authors: Weiguo Lu, Gangnan Yuan, Hong-kun Zhang, Shangyang Li,
- Abstract要約: 普遍密度近似ガウス混合モデル(GMM)に基づく新しい微分可能モジュールのクラスを導入する。
確率的制約を緩和することにより、GMNMは多様なニューラルネットワークと訓練されたエンドツーエンドメソッドにシームレスに統合できる。
実験では、GMNMを、幅広い機械学習アプリケーションにおける効率性と精度を高めるための強力で柔軟なモジュールとして実証した。
- 参考スコア(独自算出の注目度): 0.9778425765923312
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Neural networks in general, from MLPs and CNNs to attention-based Transformers, are constructed from layers of linear combinations followed by nonlinear operations such as ReLU, Sigmoid, or Softmax. Despite their strength, these conventional designs are often limited in introducing non-linearity by the choice of activation functions. In this work, we introduce Gaussian Mixture-Inspired Nonlinear Modules (GMNM), a new class of differentiable modules that draw on the universal density approximation Gaussian mixture models (GMMs) and distance properties (metric space) of Gaussian kernal. By relaxing probabilistic constraints and adopting a flexible parameterization of Gaussian projections, GMNM can be seamlessly integrated into diverse neural architectures and trained end-to-end with gradient-based methods. Our experiments demonstrate that incorporating GMNM into architectures such as MLPs, CNNs, attention mechanisms, and LSTMs consistently improves performance over standard baselines. These results highlight GMNM's potential as a powerful and flexible module for enhancing efficiency and accuracy across a wide range of machine learning applications.
- Abstract(参考訳): 一般に、MLPやCNNからアテンションベースのトランスフォーマーまで、ニューラルネットワークは、ReLU、Sigmoid、Softmaxといった非線形演算に続く線形結合の層から構築される。
その強みにもかかわらず、これらの従来の設計はしばしば活性化関数の選択によって非線形性を導入する際に制限される。
本研究では,Gaussian Mixture-Inspired Non Modules (GMNM)を紹介した。これはGaussian Mix Model (GMM)とGaussian kernalの距離特性(距離空間)に基づく微分可能モジュールの新しいクラスである。
確率的制約を緩和し、ガウス射影の柔軟なパラメータ化を採用することで、GMNMは多様なニューラルネットワークにシームレスに統合され、勾配に基づく手法で訓練されたエンドツーエンドに組み込むことができる。
MLPやCNN,アテンション機構,LSTMなどのアーキテクチャにGMNMを組み込むことで,標準ベースラインよりも常に性能が向上することを示す。
これらの結果は、幅広い機械学習アプリケーションにおける効率性と精度を高めるための強力で柔軟なモジュールとしてのGMNMの可能性を強調している。
関連論文リスト
- On Linear Mode Connectivity of Mixture-of-Experts Architectures [1.6747713135100666]
ニューラルネットワークにおける線形モード接続(LMC)現象について検討する。
LMCは、ニューラルネットワークのロスランドスケープにおいて顕著な現象であり、独立に訓練されたモデルが、アルゴリズムの様々な対称性まで接続されることになっている。
論文 参考訳(メタデータ) (2025-09-14T16:51:41Z) - uGMM-NN: Univariate Gaussian Mixture Model Neural Network [0.0]
uGMM-NNは、ディープネットワークの計算ユニットに直接確率論的推論を組み込む新しいニューラルネットワークである。
従来のマルチ層パーセプトロンと比較して,uGMM-NNは競争力のある識別性能が得られることを示す。
論文 参考訳(メタデータ) (2025-09-09T10:13:37Z) - Reparameterized LLM Training via Orthogonal Equivalence Transformation [54.80172809738605]
直交同値変換を用いてニューロンを最適化する新しいトレーニングアルゴリズムPOETを提案する。
POETは、目的関数を安定して最適化し、一般化を改善する。
我々は、大規模ニューラルネットワークのトレーニングにおいて、POETを柔軟かつスケーラブルにするための効率的な近似を開発する。
論文 参考訳(メタデータ) (2025-06-09T17:59:34Z) - Efficient Transformed Gaussian Process State-Space Models for Non-Stationary High-Dimensional Dynamical Systems [49.819436680336786]
本研究では,高次元非定常力学系のスケーラブルかつ柔軟なモデリングのための効率的な変換ガウス過程状態空間モデル(ETGPSSM)を提案する。
具体的には、ETGPSSMは、単一の共有GPと入力依存の正規化フローを統合し、複雑な非定常遷移ダイナミクスを捉える前に、表現的な暗黙のプロセスを生成する。
ETGPSSMは、計算効率と精度の観点から、既存のGPSSMとニューラルネットワークベースのSSMより優れています。
論文 参考訳(メタデータ) (2025-03-24T03:19:45Z) - Differentiable Neural-Integrated Meshfree Method for Forward and Inverse Modeling of Finite Strain Hyperelasticity [1.290382979353427]
本研究では,新しい物理インフォームド機械学習手法,特にニューラル積分メッシュフリー(NIM)法を拡張し,有限ひずみ問題をモデル化することを目的とする。
固有の微分可能プログラミング機能のおかげで、NIMは変分形式のニュートン・ラフソン線形化の導出を回避できる。
NIMはひずみデータから超弾性材料の不均一力学特性を同定し, 非線形材料の逆モデリングにおけるその有効性を検証する。
論文 参考訳(メタデータ) (2024-07-15T19:15:18Z) - Equivariant Matrix Function Neural Networks [1.8717045355288808]
解析行列同変関数を通じて非局所的相互作用をパラメータ化する新しいアーキテクチャであるマトリックス関数ニューラルネットワーク(MFNs)を導入する。
MFNは量子系の複雑な非局所的な相互作用を捉えることができ、新しい最先端の力場への道を歩むことができる。
論文 参考訳(メタデータ) (2023-10-16T14:17:00Z) - Sparse Modular Activation for Efficient Sequence Modeling [94.11125833685583]
線形状態空間モデルと自己アテンション機構を組み合わせた最近のモデルでは、様々なシーケンスモデリングタスクにおいて顕著な結果が示されている。
現在のアプローチでは、アテンションモジュールを静的かつ均一に入力シーケンスのすべての要素に適用し、最適以下の品質効率のトレードオフをもたらす。
SMA(Sparse Modular Activation)は,ニューラルネットワークが配列要素のサブモジュールを異なる方法でスパースに活性化する機構である。
論文 参考訳(メタデータ) (2023-06-19T23:10:02Z) - Realization of the Trajectory Propagation in the MM-SQC Dynamics by
Using Machine Learning [4.629634111796585]
本研究では,教師付き機械学習(ML)アプローチを適用し,軌道に基づく非線形力学を実現する。
提案したアイデアは、いくつかのサイト・エクシトン電子-フォノンカップリングモデルの力学シミュレーションにおいて信頼性と正確性があることが証明されている。
論文 参考訳(メタデータ) (2022-07-11T01:23:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。