論文の概要: Converting MLPs into Polynomials in Closed Form
- arxiv url: http://arxiv.org/abs/2502.01032v1
- Date: Mon, 03 Feb 2025 03:54:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:04:02.703644
- Title: Converting MLPs into Polynomials in Closed Form
- Title(参考訳): 閉形MDPをポリノミアルに変換する
- Authors: Nora Belrose, Alice Rigg,
- Abstract要約: 我々は、フィードフォワードネットワークの理論的に閉じた最小二乗近似を導出する。
本研究では,2次近似法を用いて,SVDに基づく逆数例を作成できることを示す。
- 参考スコア(独自算出の注目度): 0.7234862895932991
- License:
- Abstract: Recent work has shown that purely quadratic functions can replace MLPs in transformers with no significant loss in performance, while enabling new methods of interpretability based on linear algebra. In this work, we theoretically derive closed-form least-squares optimal approximations of feedforward networks (multilayer perceptrons and gated linear units) using polynomial functions of arbitrary degree. When the $R^2$ is high, this allows us to interpret MLPs and GLUs by visualizing the eigendecomposition of the coefficients of their linear and quadratic approximants. We also show that these approximants can be used to create SVD-based adversarial examples. By tracing the $R^2$ of linear and quadratic approximants across training time, we find new evidence that networks start out simple, and get progressively more complex. Even at the end of training, however, our quadratic approximants explain over 95% of the variance in network outputs.
- Abstract(参考訳): 最近の研究は、線形代数に基づく新しい解釈可能性の方法を実現する一方で、トランスフォーマーのMLPを性能的に損なうことなく、純粋に二次関数に置き換えることができることを示した。
本研究では、任意の次数多項式関数を用いて、フィードフォワードネットワーク(多層パーセプトロンおよびゲート線形単位)の閉形式最小二乗近似を理論的に導出する。
R^2$が高ければ、線形近似と二次近似の係数の固有分解を可視化することにより、MLPとGLUを解釈することができる。
また,これらの近似を用いて,SVDに基づく逆例を作成できることも示している。
R^2$の線形近似と二次近似をトレーニング時間にわたって追跡することにより、ネットワークがシンプルに始まり、徐々に複雑になるという新たな証拠が見つかる。
しかし、トレーニングの終了時でさえ、我々の二次近似式は、ネットワーク出力の95%以上のばらつきを説明できる。
関連論文リスト
- Power-Softmax: Towards Secure LLM Inference over Encrypted Data [2.4576879793338913]
ホモモルフィック暗号化(HE)は暗号化形式を持つために暗号手法を必要とする。
以前のアプローチでは、10倍を超える大きな度合いを持つ事前訓練されたモデルを直接近似していた。
トレーニングのための安定なフォームを提供し、トレーニングと近似し易い、新しいタイプの自己意図(self-attention)を提案する。
論文 参考訳(メタデータ) (2024-10-12T09:32:42Z) - Multi-Layer Transformers Gradient Can be Approximated in Almost Linear Time [17.086679273053853]
本研究では,新しい高速近似法により,ほぼ線形時間で勾配を計算することができることを示す。
勾配の効率を改善することで、この作業がより効果的なトレーニングと長期コンテキスト言語モデルのデプロイを促進することを期待する。
論文 参考訳(メタデータ) (2024-08-23T17:16:43Z) - GINN-LP: A Growing Interpretable Neural Network for Discovering
Multivariate Laurent Polynomial Equations [1.1142444517901018]
本稿では,解釈可能なニューラルネットワークであるGINN-LPを提案する。
私たちの知る限りでは、これは注文に関する事前情報なしで任意の項を発見できる最初のニューラルネットワークである。
GINN-LPは,データセット上での最先端のシンボル回帰手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-12-18T03:44:29Z) - ReLU Fields: The Little Non-linearity That Could [62.228229880658404]
我々は,高忠実度結果の保持を可能にするグリッドベース表現に対する最小の変更点について検討する。
このようなアプローチが最先端技術と競合することを示します。
論文 参考訳(メタデータ) (2022-05-22T13:42:31Z) - Sample-Efficient Reinforcement Learning Is Feasible for Linearly
Realizable MDPs with Limited Revisiting [60.98700344526674]
線形関数表現のような低複雑度モデルがサンプル効率のよい強化学習を可能にする上で重要な役割を果たしている。
本稿では,オンライン/探索的な方法でサンプルを描画するが,制御不能な方法で以前の状態をバックトラックし,再訪することができる新しいサンプリングプロトコルについて検討する。
この設定に合わせたアルゴリズムを開発し、特徴次元、地平線、逆の準最適ギャップと実際にスケールするサンプル複雑性を実現するが、状態/作用空間のサイズではない。
論文 参考訳(メタデータ) (2021-05-17T17:22:07Z) - Bilinear Classes: A Structural Framework for Provable Generalization in
RL [119.42509700822484]
Bilinear Classesは強化学習の一般化を可能にする新しい構造フレームワークである。
このフレームワークは、サンプルの複雑さが達成可能な、ほとんどすべての既存のモデルを取り込んでいる。
我々の主な成果は、双線形クラスのためのサンプル複雑性を持つRLアルゴリズムである。
論文 参考訳(メタデータ) (2021-03-19T16:34:20Z) - On Function Approximation in Reinforcement Learning: Optimism in the
Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。
特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。
私たちの後悔の限界はエピソードの数とは無関係です。
論文 参考訳(メタデータ) (2020-11-09T18:32:22Z) - FLAMBE: Structural Complexity and Representation Learning of Low Rank
MDPs [53.710405006523274]
この研究は、表現学習の問題に焦点を当てている。
基礎となる(未知の)力学が低階遷移行列に対応するという仮定の下で、表現学習問題と特定の非線形行列分解問題との関連性を示す。
低階遷移モデルにおけるRLの探索と表現学習を行うFLAMBEを開発した。
論文 参考訳(メタデータ) (2020-06-18T19:11:18Z) - A Solution for Large Scale Nonlinear Regression with High Rank and
Degree at Constant Memory Complexity via Latent Tensor Reconstruction [0.0]
本稿では,高非線形多変量関数を例から学習する新しい手法を提案する。
この手法は、連続函数をバイスで近似できるという性質を生かし、テンソルで表現できる。
モデルを学習するために,線形時間で実装可能な効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-04T14:49:14Z) - Neural Networks are Convex Regularizers: Exact Polynomial-time Convex
Optimization Formulations for Two-layer Networks [70.15611146583068]
我々は、線形整列ユニット(ReLU)を用いた2層ニューラルネットワークのトレーニングの正確な表現を開発する。
我々の理論は半無限双対性と最小ノルム正規化を利用する。
論文 参考訳(メタデータ) (2020-02-24T21:32:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。