論文の概要: Weight Tying Biases Token Embeddings Towards the Output Space
- arxiv url: http://arxiv.org/abs/2603.26663v1
- Date: Fri, 27 Mar 2026 17:58:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.636052
- Title: Weight Tying Biases Token Embeddings Towards the Output Space
- Title(参考訳): ウェイトタイリングは、アウトプットスペースに向けてToken Embeddingsを組み込む
- Authors: Antonio Lopardo, Avyukth Harish, Catherine Arnett, Akshat Gupta,
- Abstract要約: 結合埋め込み行列は、同等の非階層モデルの入力埋め込みよりも出力(埋め込み)行列とより密に一致していることを示す。
この非埋め込みバイアスは、トレーニングの初期に出力勾配が支配的であるため生じる。
残差ストリームに寄与しない初期層計算に悪影響を及ぼすことを示す。
- 参考スコア(独自算出の注目度): 9.406484994111024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weight tying, i.e. sharing parameters between input and output embedding matrices, is common practice in language model design, yet its impact on the learned embedding space remains poorly understood. In this paper, we show that tied embedding matrices align more closely with output (unembedding) matrices than with input embeddings of comparable untied models, indicating that the shared matrix is shaped primarily for output prediction rather than input representation. This unembedding bias arises because output gradients dominate early in training. Using tuned lens analysis, we show this negatively affects early-layer computations, which contribute less effectively to the residual stream. Scaling input gradients during training reduces this bias, providing causal evidence for the role of gradient imbalance. This is mechanistic evidence that weight tying optimizes the embedding matrix for output prediction, compromising its role in input representation. These results help explain why weight tying can harm performance at scale and have implications for training smaller LLMs, where the embedding matrix contributes substantially to total parameter count.
- Abstract(参考訳): 重み付け、すなわち入力と出力の埋め込み行列間のパラメータの共有は言語モデル設計において一般的な慣行であるが、学習された埋め込み空間への影響は理解されていない。
本稿では,結合埋め込み行列が,入力表現よりも出力(組込み)行列に類似していることを示し,共有行列が主に入力表現ではなく出力予測のために形成されることを示す。
この非埋め込みバイアスは、トレーニングの初期に出力勾配が支配的であるため生じる。
チューニングレンズ解析を用いて、これは初期層計算に悪影響を及ぼし、残差ストリームに効果的に寄与しないことを示す。
トレーニング中の入力勾配のスケーリングは、このバイアスを減少させ、勾配不均衡の役割の因果的証拠を与える。
これは、重み付けが出力予測のために埋め込み行列を最適化し、入力表現におけるその役割を損なうという力学的な証拠である。
これらの結果は, 重み付けが大規模性能に悪影響を及ぼす理由を解明し, 埋め込み行列が総パラメータ数に大きく寄与する, より小さなLCMのトレーニングに影響を及ぼすことを示す。
関連論文リスト
- Verifying Large Language Models' Reasoning Paths via Correlation Matrix Rank [71.09032766271493]
大規模言語モデル (LLM) は誤りや幻覚を引き起こす傾向がある。
アウトプットを効果的かつ効率的にチェックする方法は、アプリケーションにとって重要な問題となっている。
論文 参考訳(メタデータ) (2025-10-28T11:01:10Z) - Bounds of Chain-of-Thought Robustness: Reasoning Steps, Embed Norms, and Beyond [64.88201012057822]
既存の研究では、CoT(Chain-of-Thought)の出力が入力摂動に大きく影響していることが示されている。
我々は,CoT出力の変動に対する入力摂動の影響を理論的に解析する。
論文 参考訳(メタデータ) (2025-09-25T15:04:31Z) - A Random Matrix Analysis of In-context Memorization for Nonlinear Attention [18.90197287760915]
非線形注意は、ランダムな入力に対する線形リッジ回帰よりも高い記憶誤差をもたらすことを示す。
その結果,非線形注意の記憶性能を管理するために,非線形性と入力構造がどのように相互作用するかが明らかになった。
論文 参考訳(メタデータ) (2025-06-23T13:56:43Z) - Low-Bit Integerization of Vision Transformers using Operand Reordering for Efficient Hardware [0.7136205674624813]
計算グラフを解析し,演算再順序付けに基づく整数化プロセスを提案する。
これにより、量子化入力を直接処理することで、整数化行列乗法と線形加群が実現される。
実験結果から, 線形層と行列乗算のPE当たりの消費電力は, 低ビット推論により減少することがわかった。
論文 参考訳(メタデータ) (2025-04-11T16:09:54Z) - Small Singular Values Matter: A Random Matrix Analysis of Transformer Models [5.352699766206808]
この研究は、事前訓練された変圧器モデルにおける重み行列の特異値スペクトルを分析する。
ランダム行列論(RMT)からの逸脱をランダム性と偏差の証拠として,学習の証拠として観察する。
本研究は,SVDを用いた大規模言語モデルのプルーニングと圧縮のための理論的,実践的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-10-23T11:19:08Z) - From Low Rank Gradient Subspace Stabilization to Low-Rank Weights: Observations, Theories, and Applications [85.17672240603011]
大規模言語モデルにおける重み行列の非一様低ランク特性について検討する。
WeLore(Weight Low-Rank Projection)は、重み圧縮とメモリ効率の微調整を一体化したものである。
論文 参考訳(メタデータ) (2024-07-15T21:05:20Z) - Implicit Regularization of Gradient Flow on One-Layer Softmax Attention [10.060496091806694]
一層ソフトマックスアテンションモデルを用いた分類問題に対する指数損失の勾配流について検討した。
データ上の分離性仮定では、勾配流が最小損失値を達成すると、鍵とクエリの重み行列の積の核ノルムを暗黙的に最小化する。
論文 参考訳(メタデータ) (2024-03-13T17:02:27Z) - Relieving Long-tailed Instance Segmentation via Pairwise Class Balance [85.53585498649252]
長い尾のインスタンスセグメンテーションは、クラス間のトレーニングサンプルの極端な不均衡のために難しいタスクである。
尾のついたものに対して、(大多数のサンプルを含む)ヘッドクラスの深刻なバイアスを引き起こす。
そこで本研究では,学習中の予測嗜好を蓄積するために,学習中に更新される混乱行列上に構築された新しいPairwise Class Balance(PCB)手法を提案する。
論文 参考訳(メタデータ) (2022-01-08T07:48:36Z) - Orthogonal Jacobian Regularization for Unsupervised Disentanglement in
Image Generation [64.92152574895111]
直交ジャコビアン正規化法(OroJaR)を提案する。
提案手法は, 絡み合った, 制御可能な画像生成に有効であり, 最先端の手法に対して好適に機能する。
論文 参考訳(メタデータ) (2021-08-17T15:01:46Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。