論文の概要: PLDR-LLMs Learn A Generalizable Tensor Operator That Can Replace Its Own Deep Neural Net At Inference
- arxiv url: http://arxiv.org/abs/2502.13502v1
- Date: Wed, 19 Feb 2025 07:43:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:02:10.738751
- Title: PLDR-LLMs Learn A Generalizable Tensor Operator That Can Replace Its Own Deep Neural Net At Inference
- Title(参考訳): PLDR-LLMは、推論時に自身のディープ・ニューラルネットを置き換えられる汎用的なテンソル演算子を学習する
- Authors: Burc Gokden,
- Abstract要約: 我々は,$mathbfG_LM$ (G-cache) と KV-cache のキャッシュを,推論時間を改善するために簡単な方法で実装可能であることを示す。
我々は,KV-cacheとG-cacheを用いたPLDR-LLMのためのトレーニングおよび推論フレームワークの実装を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We show that Large Language Model from Power Law Decoder Representations (PLDR-LLM) is a foundational model whose deductive outputs are invariant tensors up to a small perturbation. PLDR-LLM learns a singularity condition for the deductive outputs that enable the once-inferred energy-curvature tensor $\mathbf{G}_{LM}$ to replace the deep neural network of power law graph attention (PLGA) generating the deductive outputs at inference. We demonstrate that a cache for $\mathbf{G}_{LM}$ (G-cache) and KV-cache can be implemented in a straightforward manner to improve the inference time. The invariance and generalizable nature of deductive outputs is at a very high fidelity where deductive outputs have same RMSE and determinant values up to 15 decimal places after caching, and zero-shot benchmark scores remain unchanged. Ablation studies show that learned deductive outputs have distinct loss and accuracy characteristics from models pretrained with transferred, randomly initialized or identity tensors as a constant tensor operator and an LLM with scaled-dot product attention (SDPA) is a special case of PLDR-LLM where $\mathbf{G}_{LM}$ is predefined as identity. The observed invariance characteristic introduces a novel asymmetry between training and inference phases with caching. We outline observed common characteristics of the deductive outputs for the learned singularity condition. We provide an implementation of a training and inference framework for PLDR-LLM with KV-cache and G-cache.
- Abstract(参考訳): 本稿では,Large Language Model from Power Law Decoder Representations (PLDR-LLM) が,インダクティブ・テンソルから小さな摂動までのインダクティブ・インダクティブ・アウトプットを持つ基礎モデルであることを示す。
PLDR-LLMは、一度推論されたエネルギー曲率テンソル$\mathbf{G}_{LM}$を、推論時に導出出力を生成する電力法グラフアテンション(PLGA)のディープニューラルネットワークに置き換えられるように、導出出力の特異性条件を学習する。
推論時間を改善するために,$\mathbf{G}_{LM}$ (G-cache) と KV-cache のキャッシュを簡単に実装できることを示した。
デダクティブ出力の不変性と一般化可能な性質は、キャッシング後の最大15個の10個の位置まで、デダクティブ出力がRMSEと決定値を持ち、ゼロショットベンチマークスコアが変化しない非常に高い忠実性である。
アブレーション研究により、学習帰納的出力は、移行、ランダムに初期化または恒等テンソルを一定テンソル演算子として事前訓練したモデルと、スケールドドット積注意(SDPA)を持つLCMとの区別された損失と精度特性を持つことが明らかとなり、この場合、$\mathbf{G}_{LM}$は、アイデンティティとして事前定義されたPLDR-LLMの特別なケースである。
観測された不変性は、キャッシングによるトレーニングと推論フェーズの間に新しい非対称性をもたらす。
学習特異点条件に対する導出出力の共通特性について概説した。
我々は,KV-cacheとG-cacheを用いたPLDR-LLMのためのトレーニングおよび推論フレームワークの実装を提供する。
関連論文リスト
- Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Learning Linear Attention in Polynomial Time [115.68795790532289]
線形注意を持つ単層変圧器の学習性に関する最初の結果を提供する。
線形アテンションは RKHS で適切に定義された線形予測器とみなすことができる。
我々は,すべての経験的リスクが線形変換器と同等のトレーニングデータセットを効率的に識別する方法を示す。
論文 参考訳(メタデータ) (2024-10-14T02:41:01Z) - Disentanglement with Factor Quantized Variational Autoencoders [11.086500036180222]
本稿では,生成因子に関する基礎的真理情報をモデルに提供しない離散変分オートエンコーダ(VAE)モデルを提案する。
本研究では, 離散表現を学習する上で, 連続表現を学習することの利点を実証する。
FactorQVAEと呼ばれる手法は、最適化に基づく不整合アプローチと離散表現学習を組み合わせる。
論文 参考訳(メタデータ) (2024-09-23T09:33:53Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - A Non-negative VAE:the Generalized Gamma Belief Network [49.970917207211556]
ガンマ信念ネットワーク(GBN)は、テキストデータ中の多層解釈可能な潜在表現を明らかにする可能性を実証している。
本稿では、一般化ガンマ信念ネットワーク(Generalized GBN)を導入し、元の線形生成モデルをより表現力のある非線形生成モデルに拡張する。
また、潜伏変数の後方分布を近似する上向きのワイブル推論ネットワークを提案する。
論文 参考訳(メタデータ) (2024-08-06T18:18:37Z) - Empirical Analysis of the Inductive Bias of Recurrent Neural Networks by
Discrete Fourier Transform of Output Sequences [7.279215553861787]
本研究の目的は、リカレントニューラルネットワーク(RNN)の固有一般化特性、すなわち帰納バイアスを明らかにすることである。
実験の結果,Long Short-Term Memory (LSTM) とGated Recurrent Unit (GRU) は低周波パターンに対する誘導バイアスを有することがわかった。
また,LSTMとGRUの誘導バイアスは,層数や層の大きさによって異なることがわかった。
論文 参考訳(メタデータ) (2023-05-16T05:30:13Z) - Training Discrete Deep Generative Models via Gapped Straight-Through
Estimator [72.71398034617607]
再サンプリングのオーバーヘッドを伴わずに分散を低減するため, GST (Gapped Straight-Through) 推定器を提案する。
この推定子は、Straight-Through Gumbel-Softmaxの本質的な性質に着想を得たものである。
実験により,提案したGST推定器は,2つの離散的な深部生成モデリングタスクの強いベースラインと比較して,優れた性能を享受できることが示された。
論文 参考訳(メタデータ) (2022-06-15T01:46:05Z) - Implicit Bias of MSE Gradient Optimization in Underparameterized Neural
Networks [0.0]
勾配流による平均二乗誤差の最適化において,関数空間におけるニューラルネットワークのダイナミクスについて検討する。
ニューラルタンジェントカーネル(NTK)により決定された積分作用素$T_Kinfty$の固有関数をネットワークが学習することを示す。
減衰偏差は2乗誤差を最適化する際の力学の単純かつ統一的な視点を与えると結論付けている。
論文 参考訳(メタデータ) (2022-01-12T23:28:41Z) - Disentangling Generative Factors of Physical Fields Using Variational
Autoencoders [0.0]
本研究は,非線形次元低減のための変分オートエンコーダ (VAE) の利用について検討する。
不整合分解は解釈可能であり、生成的モデリングを含む様々なタスクに転送することができる。
論文 参考訳(メタデータ) (2021-09-15T16:02:43Z) - Topographic VAEs learn Equivariant Capsules [84.33745072274942]
本稿では, 地理的に整理された潜伏変数を用いた深部生成モデルを効率的に学習するための新しい手法であるTopographic VAEを紹介する。
このようなモデルでは,MNIST上での桁数クラス,幅,スタイルなどの健全な特徴に応じて,その活性化を組織化することが実際に学べることが示される。
我々は、既存の群同変ニューラルネットワークの能力を拡張して、複素変換に近似した同値性を示す。
論文 参考訳(メタデータ) (2021-09-03T09:25:57Z) - Effects of Parameter Norm Growth During Transformer Training: Inductive
Bias from Gradient Descent [44.44543743806831]
本研究では, トレーニング中にこれらの標準間に飽和しながら, 変圧器パラメータが大きくなる傾向について検討した。
パラメータが大きくなるにつれて、ネットワークは飽和活性化関数を持つ離散化されたネットワークに近似することが証明される。
以上の結果から,飽和はNLPに対する特定の関心のGDに暗黙的な誘導バイアスの新たな特徴であることが示唆された。
論文 参考訳(メタデータ) (2020-10-19T17:40:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。