Fugu-MT 論文翻訳(概要): PC Layer: Polynomial Weight Preconditioning for Improving LLM Pre-Training

論文の概要: PC Layer: Polynomial Weight Preconditioning for Improving LLM Pre-Training

arxiv url: http://arxiv.org/abs/2606.06470v1
Date: Thu, 04 Jun 2026 17:55:11 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-05 22:39:45.024047
Title: PC Layer: Polynomial Weight Preconditioning for Improving LLM Pre-Training
Title（参考訳）: PC層:LCM前処理改善のためのポリノミアルウェイトプレコンディショニング
Authors: Senmiao Wang, Tiantian Fang, Haoran Zhang, Yushun Zhang, Kunxiang Zhao, Alex Schwing, Ruoyu Sun,
Abstract要約: そこで本研究では,プレコンディショニング(PC)層と,プリコンディショナーによる重みパラメータ化により,安定な重みトレーニングを実現することを提案する。 PCは、プレコンディショニングを通して低度の条件付けを通じて重量行列の特異値スペクトルを再評価する。トレーニング後、ウェイトは元のアーキテクチャにマージされ、オーバーヘッドは発生しない。
参考スコア（独自算出の注目度）: 9.211159024428083
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose a preconditioning (PC) layer, a weight parameterization via polynomial preconditioner that ensures stable weight conditioning throughout LLM training. The PC module reshapes the singular-value spectrum of weight matrices via low-degree polynomial preconditioning. After training, the preconditioned weights can be merged back into the original architecture, incurring no inference overhead. We demonstrate the advantage of the proposed PC layer over standard transformers in Llama-1B pre-training, for both the AdamW and Muon optimizers. Theoretically, we justify this spectrum-control principle by proving that uniformly bounding each layer's singular values ensures geometric convergence of gradient descent to global minima, for certain deep linear networks. Our code is available at https://github.com/Empath-aln/PC-layer.
Abstract（参考訳）: そこで本研究では,LLMトレーニングを通じて安定な重み条件設定を実現する,多項式プレコンディショナによる重みパラメータ化(PC)層を提案する。 PCモジュールは、低次多項式プレコンディショニングにより重み行列の特異値スペクトルを再設定する。トレーニング後、事前条件付きウェイトは元のアーキテクチャにマージされ、推論オーバーヘッドは発生しない。我々は,Llama-1Bプリトレーニングにおいて,AdamWとMuonオプティマイザの両方に対して,標準変圧器よりもPC層の方が優れていることを示す。理論的には、このスペクトル制御の原理を、各層の特異な値を均一に有界にすることで、ある種の深い線形ネットワークに対して、大域的ミニマへの勾配降下の幾何収束を保証できることを証明して正当化する。私たちのコードはhttps://github.com/Empath-aln/PC-layerで利用可能です。

関連論文リスト

Gradient Clipping Beyond Vector Norms: A Spectral Approach for Matrix-Valued Parameters [48.3175117923623]
ほとんどの勾配クリッピング規則は、全てのパラメータを重ベクトルとして扱い、現代のベクトルの行列構造を無視する。実験により、データのアウトリーチは、少数のリード特異値のみを増幅することを示した。この現象を動機として,特異値で安定化するクリッピングを提案する。
論文参考訳（メタデータ） (2026-05-12T09:24:59Z)
ShadowPEFT: Shadow Network for Parameter-Efficient Fine-Tuning [14.501555924276824]
低ランク適応(LoRA)は、個々の重みに直接独立した低ランク摂動を挿入することで適応する。そこで我々は,深度共有シャドウモジュールを用いて層レベルの改善を行う,集中型PEFTフレームワークであるShadowPEFTを提案する。
論文参考訳（メタデータ） (2026-04-21T09:17:35Z)
Power-Softmax: Towards Secure LLM Inference over Encrypted Data [2.4576879793338913]
ホモモルフィック暗号化(HE)は暗号化形式を持つために暗号手法を必要とする。以前のアプローチでは、10倍を超える大きな度合いを持つ事前訓練されたモデルを直接近似していた。トレーニングのための安定なフォームを提供し、トレーニングと近似し易い、新しいタイプの自己意図(self-attention)を提案する。
論文参考訳（メタデータ） (2024-10-12T09:32:42Z)
From Low Rank Gradient Subspace Stabilization to Low-Rank Weights: Observations, Theories, and Applications [85.17672240603011]
大規模言語モデルにおける重み行列の非一様低ランク特性について検討する。 WeLore(Weight Low-Rank Projection)は、重み圧縮とメモリ効率の微調整を一体化したものである。
論文参考訳（メタデータ） (2024-07-15T21:05:20Z)
ConvLoRA and AdaBN based Domain Adaptation via Self-Training [4.006331916849688]
マルチターゲットドメイン適応のための畳み込み低ランク適応(ConvLoRA)を提案する。 ConvLoRAはトレーニング済みのモデルウェイトを凍結し、畳み込み層にトレーニング可能な低ランク分解行列を追加し、勾配をバックプロパゲートする。提案手法はトレーニング可能なパラメータを少なくし,大規模独立微調整ネットワークと同等あるいは同等に動作する。
論文参考訳（メタデータ） (2024-02-07T15:43:50Z)
Riemannian Preconditioned LoRA for Fine-Tuning Foundation Models [45.72323731094864]
Low-Rank Adaptation (LoRA) は、パラメータ効率のよい微細チューニング(PEFT)法として人気がある。本研究では,各勾配ステップに$r倍r$プレコンディショナーを導入することにより,LoRAトレーニングの強化について検討する。
論文参考訳（メタデータ） (2024-02-04T05:05:43Z)
Equivariant Architectures for Learning in Deep Weight Spaces [54.61765488960555]
重み空間の学習のための新しいネットワークアーキテクチャを提案する。入力として、事前訓練された不変量の重みとバイアスの連結をとる。これらのレイヤを3つの基本的な操作で実装する方法を示す。
論文参考訳（メタデータ） (2023-01-30T10:50:33Z)
Gradient-based Weight Density Balancing for Robust Dynamic Sparse Training [59.48691524227352]
スパースニューラルネットワークをゼロからトレーニングするには、接続自体と同時にコネクションを最適化する必要がある。トレーニング中に各レイヤ間の接続は複数回最適化されるが、各レイヤの密度は通常一定である。我々は、すべての層に重みを分散するテクニックであるGlobal Gradient-based Redistributionを提案する。
論文参考訳（メタデータ） (2022-10-25T13:32:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。