論文の概要: Enhanced QKNorm normalization for neural transformers with the Lp norm
- arxiv url: http://arxiv.org/abs/2602.05006v1
- Date: Wed, 04 Feb 2026 19:45:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.595887
- Title: Enhanced QKNorm normalization for neural transformers with the Lp norm
- Title(参考訳): Lpノルムを用いたニューラルトランスのQKNorm正規化
- Authors: Ezequiel Lopez-Rubio, Javier Montes-Perez, Esteban Jose Palomo,
- Abstract要約: クエリとキーベクトルの正規化は、Transformerアーキテクチャの重要な部分である。
QKNorm正規化スキームの一般化を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The normalization of query and key vectors is an essential part of the Transformer architecture. It ensures that learning is stable regardless of the scale of these vectors. Some normalization approaches are available. In this preliminary work, a generalization of the QKNorm normalization scheme is proposed. The approach is based on the Lp norm, allowing non-Euclidean norms to be employed. Experimental results demonstrate the suitability of the method for a simple problem.
- Abstract(参考訳): クエリとキーベクトルの正規化は、Transformerアーキテクチャの重要な部分である。
これらのベクトルの規模に関係なく、学習が安定であることを保証する。
いくつかの正規化アプローチが利用可能である。
本稿では,QKNorm正規化スキームの一般化を提案する。
このアプローチはLpノルムに基づいており、非ユークリッドノルムを適用できる。
実験により, 簡単な問題に対する手法の適合性を実証した。
関連論文リスト
- WUSH: Near-Optimal Adaptive Transforms for LLM Quantization [52.77441224845925]
低ビット幅への量子化は、大きな言語モデルをデプロイするための標準的なアプローチである。
いくつかの極端な重みと活性化は、ダイナミックレンジを拡張し、量子化器の有効分解能を減少させる。
結合重みアクティベーション量子化のための閉形式最適線形ブロックワイズ変換を初めて導出する。
論文 参考訳(メタデータ) (2025-11-30T16:17:34Z) - Sequence Length Independent Norm-Based Generalization Bounds for
Transformers [21.2523248114561]
本稿では,入力シーケンス長に依存しないトランスフォーマーアーキテクチャに対して,ノルムに基づく一般化境界を提供する。
変換器のラデマッハ複雑性の上界への有界線型変換の関数クラスに対して、3つの新しい被覆数境界を用いる。
論文 参考訳(メタデータ) (2023-10-19T18:31:09Z) - AFN: Adaptive Fusion Normalization via an Encoder-Decoder Framework [6.293148047652131]
適応核融合正規化(Adaptive Fusion Normalization)と呼ばれる新しい正規化関数を提案する。
実験により、AFNは、領域一般化および画像分類タスクにおいて、従来の正規化手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-07T06:08:51Z) - The Implicit Bias of Batch Normalization in Linear Models and Two-layer
Linear Convolutional Neural Networks [117.93273337740442]
勾配勾配勾配は、exp(-Omega(log2 t))$収束率でトレーニングデータ上の一様マージン分類器に収束することを示す。
また、バッチ正規化はパッチワイドの均一なマージンに対して暗黙の偏りを持つことを示す。
論文 参考訳(メタデータ) (2023-06-20T16:58:00Z) - Border Basis Computation with Gradient-Weighted Norm [5.863264019032882]
退化イデアルの近似境界基底に対する勾配重み付き正規化を提案する。
わずかな修正で、係数正規化を伴うアルゴリズムの解析は、勾配重み付き正規化と共に機能する。
論文 参考訳(メタデータ) (2021-01-02T08:29:51Z) - Understanding Implicit Regularization in Over-Parameterized Single Index
Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。
暗黙正則化現象の理論的保証を提供する。
論文 参考訳(メタデータ) (2020-07-16T13:27:47Z) - New Interpretations of Normalization Methods in Deep Learning [41.29746794151102]
これらのツールを使って、一般的な正規化手法を深く分析する。
ほとんどの正規化法は統一されたフレームワークで解釈できる。
これらの正規化手法によるトレーニングは、重みのノルムを増大させ、攻撃を増幅すると敵の脆弱性を引き起こす可能性があることを証明している。
論文 参考訳(メタデータ) (2020-06-16T12:26:13Z) - Normalized Convolutional Neural Network [3.9686028140278897]
我々は、畳み込みネットワークにおける正規化の新しいアプローチである正規化畳み込みニューラルネットワーク層を導入する。
この層は、畳み込み中にim2col行列の行を正規化し、スライスされた入力に本質的に適応し、カーネル構造との整合性が向上する。
論文 参考訳(メタデータ) (2020-05-11T17:20:26Z) - On Layer Normalization in the Transformer Architecture [112.40350994368741]
まず,学習速度のウォームアップが重要である理由を理論的に検討し,レイヤー正規化の位置が重要であることを示す。
ウォームアップステージのないPre-LNトランスフォーマーはベースラインと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-12T00:33:03Z) - Supervised Quantile Normalization for Low-rank Matrix Approximation [50.445371939523305]
我々は、$X$ の値と $UV$ の値を行ワイズで操作できる量子正規化演算子のパラメータを学習し、$X$ の低ランク表現の質を改善する。
本稿では,これらの手法が合成およびゲノムデータセットに適用可能であることを実証する。
論文 参考訳(メタデータ) (2020-02-08T21:06:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。