論文の概要: It Takes a Good Model to Train a Good Model: Generalized Gaussian Priors for Optimized LLMs
- arxiv url: http://arxiv.org/abs/2506.00486v3
- Date: Wed, 04 Jun 2025 08:00:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 13:54:39.504146
- Title: It Takes a Good Model to Train a Good Model: Generalized Gaussian Priors for Optimized LLMs
- Title(参考訳): 良いモデルを訓練するには良いモデルが必要:最適化LDMのための一般化ガウスの先駆者
- Authors: Jun Wu, Yirong Xiong, Jiangtao Wen, Yuxing Han,
- Abstract要約: 大規模言語モデルのトレーニング時間圧縮アルゴリズムであるBackSlashを導入する。
GGモデルに基づくLLM最適化のための統一エンドツーエンドフレームワークを提案する。
私たちの貢献は3倍です。
DeepShapeは、トレーニング後の正規化手法で、体重分布をGGプロファイルにマッチさせる。
RF8は、GG-distributed-priord BackSlashトレーニング用に設計された、コンパクトでハードウェア効率の良い8ビット浮動小数点演算フォーマットである。
- 参考スコア(独自算出の注目度): 15.263422862969803
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite rapid advancements in the research and deployment of large language models (LLMs), the statistical distribution of model parameters, as well as their influence on initialization, training dynamics, and downstream efficiency, has received surprisingly little attention. A recent work introduced BackSlash, a training-time compression algorithm. It first demonstrated that pre-trained LLM parameters follow generalized Gaussian distributions (GGDs) better. By optimizing GG priors during training, BackSlash can reduce parameters by up to 90\% with minimal performance loss. Building on this foundational insight, we propose a unified, end-to-end framework for LLM optimization based on the GG model. Our contributions are threefold: (1) GG-based initialization scheme that aligns with the statistical structure of trained models, resulting in faster convergence and improved accuracy; (2) DeepShape, a post-training regularization method that reshapes weight distributions to match a GG profile, improving compressibility with minimized degradation in performance; and (3) RF8, a compact and hardware-efficient 8-bit floating-point format designed for GG-distributed-initialized BackSlash training, enabling low-cost inference without compromising accuracy. Experiments across diverse model architectures show that our framework consistently yields smaller and faster models that match or outperform standard training baselines. By grounding LLM development in principled statistical modeling, this work forges a new path toward efficient, scalable, and hardware-aware AI systems. The code is available on our project page: https://huggingface.co/spaces/shifeng3711/gg_prior.
- Abstract(参考訳): 大規模言語モデル(LLM)の研究と展開の急速な進歩にもかかわらず、モデルパラメータの統計分布、初期化、トレーニングダイナミクス、下流効率への影響は驚くほど注目されていない。
最近の研究は、トレーニング時の圧縮アルゴリズムであるBackSlashを導入した。
最初に、事前学習されたLLMパラメータが一般化されたガウス分布(GGDs)に従うことを示した。
トレーニング中のGGプリエントを最適化することにより、BackSlashはパフォーマンス損失を最小限に抑えて、最大90%のパラメータを削減できる。
この基礎的な知見に基づいて,GGモデルに基づくLLM最適化のための統一的なエンドツーエンドフレームワークを提案する。
提案手法は,(1)学習モデルの統計的構造と一致し,より高速な収束と精度の向上をもたらすGGベースの初期化スキーム,(2)GGプロファイルに適合する重量分布を再学習し,性能の低下を最小化して圧縮性を向上させるDeepShape,(3)GG分散初期化BackSlashトレーニング用に設計されたコンパクトでハードウェア効率の良い8ビット浮動小数点フォーマットRF8,の3つである。
多様なモデルアーキテクチャに対する実験は、我々のフレームワークが標準トレーニングベースラインに適合または向上する、より小さく、より高速なモデルを生み出していることを示している。
LLM開発を原則的統計モデルで基礎付けることで、この研究は効率的でスケーラブルでハードウェア対応のAIシステムへの新たな道筋を築き上げている。
コードはプロジェクトのページで公開されている。
関連論文リスト
- Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - Optimizing ML Training with Metagradient Descent [69.89631748402377]
モデルトレーニングによる勾配というメタグラディエントを,大規模に効率的に計算するアルゴリズムを導入する。
次に、メタグラディエントを用いた効果的な最適化を可能にする「滑らかなモデルトレーニング」フレームワークを導入する。
論文 参考訳(メタデータ) (2025-03-17T22:18:24Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - Building on Efficient Foundations: Effectively Training LLMs with Structured Feedforward Layers [16.253898272659242]
大規模言語モデル(LLM)における最先端の結果は、しばしばスケールに依存し、計算コストがかかる。
本研究は,計算集約型フィードフォワードネットワーク(FFN)を対象とするトランスフォーマーベースLLMに着目した。
広範かつ構造化されたネットワークは、最適なトレードオフにおいて、パラメータが少なく、高密度モデルよりも損失が少ないFLOPをより効率的に活用できることを示す。
論文 参考訳(メタデータ) (2024-06-24T08:43:21Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Improving generalization in large language models by learning prefix
subspaces [5.911540700785975]
本稿では、希少なデータ構造における大規模言語モデル(LLM)の微調整に焦点を当てる("few-shot"学習環境としても知られる)。
ニューラルネットワーク部分空間に基づくLLMの一般化能力を向上させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T12:44:09Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。