論文の概要: Holonorm
- arxiv url: http://arxiv.org/abs/2511.10504v1
- Date: Fri, 14 Nov 2025 01:55:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.899279
- Title: Holonorm
- Title(参考訳): ホロノルム
- Authors: Daryl Noupa Yongueng, Hamidou Tembine,
- Abstract要約: 残差接続と非線形性を有するホロノルム(hn)を提案する。
ホロノルムは正規化の文脈でTanhを置き換えるのに適している。
- 参考スコア(独自算出の注目度): 0.1104960878651584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Normalization is a key point in transformer training . In Dynamic Tanh (DyT), the author demonstrated that Tanh can be used as an alternative layer normalization (LN) and confirmed the effectiveness of the idea. But Tanh itself faces orthogonality, linearity and distortion problems. Due to that, his proposition cannot be reliable. So we propose a Holonorm (hn) which has residual connections and nonlinearity. Holonorm is suitable for replacing Tanh in the context of normalization. Although the HoloNorm expression could be similar to the softsign function in dimension one, softsign is a componentwise function which is not good for tensors and vectors of great dimension. Holonorm preserves the orthogonality, the direction, the invertibility of the signal. Holonorm is also a suitable metric, maps all vectors into the open unit ball. This prevents exploding activations and improves stability in deep Transformer models. In this work, we have meticulously examined the normalization in transformers and say that Holonorm, a generalized form of softsign function suited as a normalization function first.Second, defined between 0 and 1 hn serves as a percentage, and $1 - \text{Holonorm}$ is its complement, making it better understandable in evaluating a model.
- Abstract(参考訳): 正規化はトランスフォーマートレーニングにおける重要なポイントである。
Dynamic Tanh (DyT) において、著者らはTanhを代替層正規化(LN)として使用することができ、そのアイデアの有効性を確認した。
しかし、Tanh自身は直交性、線型性、歪み問題に直面している。
そのため、彼の提案は信用できない。
そこで、残差接続と非線形性を有するホロノルム(hn)を提案する。
ホロノルムは正規化の文脈でTanhを置き換えるのに適している。
HoloNorm 式は次元 1 のソフトサイン関数と似ているが、ソフトサインは大次元のテンソルやベクトルには向いていない成分的関数である。
ホロノルムは直交性、方向、信号の可逆性を保っている。
ホロノルムもまた適切な計量であり、すべてのベクトルを開単位球に写す。
これにより、爆発的なアクティベーションが防止され、ディープトランスフォーマーモデルの安定性が向上する。
本研究では、変換器の正規化を慎重に検討し、まず正規化関数として適する一般化形式であるホロノルムについて述べる。第2に、0 から 1 hn の間で定義される第2にパーセンテージとして機能し、1 - \text{Holonorm}$はその補数であり、モデルの評価においてより理解しやすい。
関連論文リスト
- Transformers Can Overcome the Curse of Dimensionality: A Theoretical Study from an Approximation Perspective [7.069772598731282]
Transformerモデルは自然言語処理などの機械学習の様々な応用分野で広く利用されている。
本稿では、変換器によるH'older連続関数クラス $mathcalH_Qbetaleft([0,1]dtimes n,mathbbRdtimes nright)$ の近似を調査し、次元性の呪いを克服できるいくつかの変換器を構築する。
論文 参考訳(メタデータ) (2025-04-18T08:56:53Z) - Transformer Normalisation Layers and the Independence of Semantic Subspaces [17.957364289876548]
我々は意味的部分空間を、注意分布を完全に決定できる潜在表現の任意の独立部分空間とみなす。
最先端の変圧器が使用する正規化層の配置であるPre-Normは,この能力に反することを示す。
標準値が$lesssim$10%で人工的に摂動されるとき、1%の回路崩壊率を観測する。
論文 参考訳(メタデータ) (2024-06-25T16:16:38Z) - Scaling Laws in Linear Regression: Compute, Parameters, and Data [86.48154162485712]
無限次元線形回帰セットアップにおけるスケーリング法則の理論について検討する。
テストエラーの再現可能な部分は$Theta(-(a-1) + N-(a-1)/a)$であることを示す。
我々の理論は経験的ニューラルスケーリング法則と一致し、数値シミュレーションによって検証される。
論文 参考訳(メタデータ) (2024-06-12T17:53:29Z) - Towards Optimal Sobolev Norm Rates for the Vector-Valued Regularized Least-Squares Algorithm [30.08981916090924]
無限次元ベクトル値リッジ回帰の最初の最適速度を、$L$と仮説空間の間を補間するノルムの連続スケールに提示する。
これらの値は、ほとんどの場合最適であり、出力空間の次元に依存しないことを示す。
論文 参考訳(メタデータ) (2023-12-12T11:48:56Z) - General Neural Gauge Fields [100.35916421218101]
我々はゲージ変換とニューラルネットワークを協調的に最適化する学習フレームワークを開発した。
我々は、シーン情報を本質的に保存し、優れた性能を得ることができる情報不変ゲージ変換を導出する。
論文 参考訳(メタデータ) (2023-05-05T12:08:57Z) - Hybrid Model-based / Data-driven Graph Transform for Image Coding [54.31406300524195]
予測内残差ブロックを符号化するハイブリッドモデルベース/データ駆動方式を提案する。
変換行列の最初の$K$固有ベクトルは、安定性のための非対称離散正弦変換(ADST)のような統計モデルから導かれる。
WebPをベースライン画像として使用することにより、我々のハイブリッドグラフ変換は、デフォルトの離散コサイン変換(DCT)よりもエネルギーの圧縮が良く、KLTよりも安定性がよいことを示す。
論文 参考訳(メタデータ) (2022-03-02T15:36:44Z) - Orthogonal Jacobian Regularization for Unsupervised Disentanglement in
Image Generation [64.92152574895111]
直交ジャコビアン正規化法(OroJaR)を提案する。
提案手法は, 絡み合った, 制御可能な画像生成に有効であり, 最先端の手法に対して好適に機能する。
論文 参考訳(メタデータ) (2021-08-17T15:01:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。