論文の概要: Rethinking Weight Tying: Pseudo-Inverse Tying for Stable LM Training and Updates
- arxiv url: http://arxiv.org/abs/2602.04556v1
- Date: Wed, 04 Feb 2026 13:44:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.549766
- Title: Rethinking Weight Tying: Pseudo-Inverse Tying for Stable LM Training and Updates
- Title(参考訳): 軽量タイピングを再考する - 安定したLMトレーニングのための擬似逆タイピングとアップデート
- Authors: Jian Gu, Aldeida Aleti, Chunyang Chen, Hongyu Zhang,
- Abstract要約: Pseudo-Inverse Tyingはトレーニングを通じて擬似逆整合インターフェースを保証する。
256M-1.3Bパラメータにまたがるデバイス上でのPITを評価する。
- 参考スコア(独自算出の注目度): 22.84428628659889
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weight tying is widely used in compact language models to reduce parameters by sharing the token table between the input embedding and the output projection. However, weight sharing does not guarantee a stable token interface: during training, the correspondence between encoding tokens into hidden states and decoding hidden states into logits can drift, worsening optimization sensitivity and making post-training interventions such as editing, patching, and lightweight adaptation less predictable. We propose Pseudo-Inverse Tying (PIT), which synchronizes embedding and unembedding as coupled projections of a shared latent token memory, guaranteeing a pseudo-inverse-consistent interface throughout training. PIT maintains an orthonormal shared memory, obtained by thin polar decomposition for teacher initialization or random orthonormal initialization from scratch, and introduces a fully learned symmetric positive definite hidden-space transform parameterized via a Cholesky factor. The output head applies this transform to hidden states before the vocabulary projection, while the embedding applies the inverse transform to token vectors using stable triangular solves, avoiding explicit pseudo-inverse recomputation and any vocabulary-sized auxiliary parameters. We evaluate PIT on on-device models spanning 256M-1.3B parameters across pretraining and adaptation, and consistently observe improved training stability, stronger layerwise semantic consistency, and substantially reduced side effects.
- Abstract(参考訳): 重み付けは、入力埋め込みと出力プロジェクションの間でトークンテーブルを共有することでパラメータを減らすために、コンパクト言語モデルで広く使われている。
しかし、ウェイトシェアリングは安定したトークンインターフェースを保証するものではない。トレーニング中は、トークンを隠された状態にエンコードし、隠された状態をロジットにデコードすることで、最適化の感度を悪化させ、編集、パッチ、軽量適応といったトレーニング後の介入を予測しにくくする。
そこで我々は,Pseudo-Inverse Tying (PIT)を提案する。これは,共有潜在トークンメモリの共通プロジェクションとして埋め込みとアンエンベディングを同期し,擬似逆整合インターフェースをトレーニングを通して保証する。
PITは教師の初期化やスクラッチからのランダムな正則初期化のための極性分解によって得られる正則共有メモリを維持し、コレスキー因子を介してパラメータ化された完全に学習された対称正定型隠れ空間変換を導入する。
出力ヘッドは、この変換を語彙射影の前に隠された状態に適用し、埋め込みは安定な三角形の解を用いてトークンベクトルに逆変換を適用し、明示的な擬似逆再計算や語彙サイズの補助パラメータを避ける。
256M-1.3Bパラメータにまたがるデバイス上でのPITを評価し,トレーニングの安定性の向上,階層的セマンティック一貫性の強化,副作用の大幅な低減を継続的に観察した。
関連論文リスト
- Beyond Scattered Acceptance: Fast and Coherent Inference for DLMs via Longest Stable Prefixes [10.877713536966601]
Longestahead Prefix(LSP)スケジューラは、モノリシックプレフィックスの吸収に基づく、トレーニング不要でモデルに依存しない推論パラダイムである。
LSPは1つのフォワードパスを介してトークンの安定性を評価し、安定な予測の連続した左整列ブロックを動的に識別する。
原子のコミットメントの前に、言語や構造的受容の境界を画定する。
論文 参考訳(メタデータ) (2026-03-05T18:25:26Z) - Stability and Generalization of Push-Sum Based Decentralized Optimization over Directed Graphs [55.77845440440496]
プッシュベースの分散通信は、情報交換が非対称である可能性のある通信ネットワークの最適化を可能にする。
我々は、グラディエント・プッシュ(SGP)アルゴリズムのための統一的な一様安定性フレームワークを開発する。
重要な技術的要素は、2つの量に束縛された不均衡認識の一般化である。
論文 参考訳(メタデータ) (2026-02-24T05:32:03Z) - Geometric-Disentangelment Unlearning [106.99160454669902]
忘れたサンプルへの勾配は しばしば 保持された知識を傷つける
本稿では,GU(Geometric-disment Unlearning)を提案する。
本手法はプラグ・アンド・プレイであり,既存の勾配に基づくアンラーニング手法と併用することで副作用を軽減できる。
論文 参考訳(メタデータ) (2025-11-21T09:58:25Z) - PAID: Pairwise Angular-Invariant Decomposition for Continual Test-Time Adaptation [70.98107766265636]
本稿では,事前学習した重みの幾何学的特性を出発点として,3つの重要な成分(等級,絶対角,対角構造)を体系的に解析する。
両角構造は多種多様なドメインにわたって安定であり, ドメイン不変な意味情報を符号化し, 適応中に保存すべきことを示唆する。
論文 参考訳(メタデータ) (2025-06-03T05:18:15Z) - Making Sense of Touch: Unsupervised Shapelet Learning in Bag-of-words Sense [0.0]
本稿では、t分散隣接操作(t-SNE)データを用いたニューラルネットワークNN-STNEを導入し、シェープレットデータへのマッピングにより入力次元を縮小する。
論文 参考訳(メタデータ) (2025-02-06T15:50:40Z) - PseudoNeg-MAE: Self-Supervised Point Cloud Learning using Conditional Pseudo-Negative Embeddings [55.55445978692678]
PseudoNeg-MAEは、ポイントクラウドマスマスキングオートエンコーダのグローバルな特徴表現を強化する。
本研究では,ネットワークが識別的表現を保ちながら,よりリッチな変換キューをキャプチャできる新たな損失を提案する。
論文 参考訳(メタデータ) (2024-09-24T07:57:21Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Learning Iterative Robust Transformation Synchronization [71.73273007900717]
グラフニューラルネットワーク(GNN)を用いて変換同期を学習することを提案する。
本研究では、ロバストな損失関数のハンドクラフトを回避するとともに、グラフニューラルネットワーク(GNN)を用いて変換同期を学習することを提案する。
論文 参考訳(メタデータ) (2021-11-01T07:03:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。