論文の概要: WISCA: A Lightweight Model Transition Method to Improve LLM Training via Weight Scaling
- arxiv url: http://arxiv.org/abs/2508.16676v1
- Date: Thu, 21 Aug 2025 08:08:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.112093
- Title: WISCA: A Lightweight Model Transition Method to Improve LLM Training via Weight Scaling
- Title(参考訳): WISCA:軽量モデル遷移法による軽量スケーリングによるLCMトレーニングの改善
- Authors: Jiacheng Li, Jianchao Tan, Zhidong Yang, Pingwei Sun, Feiye Huo, Jiayu Qin, Yerui Sun, Yuchen Xie, Xunliang Cai, Xiangyu Zhang, Maoxin He, Guangming Tan, Weile Jia, Tong Zhao,
- Abstract要約: トレーニング効率とモデル品質を向上させるために,WISCAと呼ばれるウェイトスケーリング手法を提案する。
WISCAはコンバージェンス品質を著しく改善することを示した。
- 参考スコア(独自算出の注目度): 30.05421102492198
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer architecture gradually dominates the LLM field. Recent advances in training optimization for Transformer-based large language models (LLMs) primarily focus on architectural modifications or optimizer adjustments. However, these approaches lack systematic optimization of weight patterns during training. Weight pattern refers to the distribution and relative magnitudes of weight parameters in a neural network. To address this issue, we propose a Weight Scaling method called WISCA to enhance training efficiency and model quality by strategically improving neural network weight patterns without changing network structures. By rescaling weights while preserving model outputs, WISCA indirectly optimizes the model's training trajectory. Experiments demonstrate that WISCA significantly improves convergence quality (measured by generalization capability and loss reduction), particularly in LLMs with Grouped Query Attention (GQA) architectures and LoRA fine-tuning tasks. Empirical results show 5.6% average improvement on zero-shot validation tasks and 2.12% average reduction in training perplexity across multiple architectures.
- Abstract(参考訳): トランスフォーマーアーキテクチャは徐々にLLMフィールドを支配している。
トランスフォーマーベースの大規模言語モデル(LLM)のトレーニング最適化の最近の進歩は、主にアーキテクチャ修正やオプティマイザ調整に焦点を当てている。
しかし、これらの手法は訓練中に重みパターンの体系的な最適化を欠いている。
重みパターンとは、ニューラルネットワークにおける重みパラメータの分布と相対的な大きさを指す。
そこで本研究では,ネットワーク構造を変化させることなく,ニューラルネットワークの重みパターンを戦略的に改善し,トレーニング効率とモデル品質を向上させるために,WISCAと呼ばれるウェイトスケーリング手法を提案する。
モデルの出力を保存しながら重みを再スケーリングすることで、WISCAは間接的にモデルのトレーニング軌道を最適化する。
WISCA は,特に Grouped Query Attention (GQA) アーキテクチャと LoRA 微調整タスクを備えた LLM において,コンバージェンス品質を著しく向上することを示した。
実験の結果、ゼロショット検証タスクの平均5.6%が改善し、2.12%が複数のアーキテクチャでトレーニングの難易度を下げている。
関連論文リスト
- Decoupled Relative Learning Rate Schedules [4.34286535607654]
トランスフォーマーモデルにおいて、異なるコンポーネントの重みの学習率を調整することで、LLMトレーニングを最適化するための新しいアプローチを導入する。
導入した相対学習率RLRSは,学習過程を最大で23%高速化する。
論文 参考訳(メタデータ) (2025-07-04T12:23:45Z) - Optimizing ML Training with Metagradient Descent [69.89631748402377]
モデルトレーニングによる勾配というメタグラディエントを,大規模に効率的に計算するアルゴリズムを導入する。
次に、メタグラディエントを用いた効果的な最適化を可能にする「滑らかなモデルトレーニング」フレームワークを導入する。
論文 参考訳(メタデータ) (2025-03-17T22:18:24Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
深層ニューラルネットワークのための統合トレーニングフレームワークを提案する。
我々は,事前条件付き勾配最適化を利用するMARSの3つの例を紹介する。
その結果,MARSの実装はAdamより一貫して優れていた。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - Optimizing importance weighting in the presence of sub-population shifts [0.0]
トレーニングデータとテストデータの間の分散シフトは、機械学習モデルの性能を著しく損なう可能性がある。
トレーニングデータの有限標本サイズによる推定モデルのばらつきの増大を無視するため,既存の重み付けは準最適であると主張する。
重みとモデルパラメータを同時に最適化する二段階最適化手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T09:21:10Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - TRAWL: Tensor Reduced and Approximated Weights for Large Language Models [11.064868044313855]
TRAWL (Tensor Reduced and Approximated Weights for Large Language Models) は、複数の重み行列に対してテンソル分解を適用し、大域的な構造パターンを捉えることでLLMを効果的に分解する手法である。
我々の実験によると、TRAWLは、追加のデータやトレーニング、微調整を必要とせず、ベンチマークデータセットのベースラインモデルよりも最大16%モデル性能を向上させる。
論文 参考訳(メタデータ) (2024-06-25T04:01:32Z) - Analyzing and Improving the Training Dynamics of Diffusion Models [36.37845647984578]
一般的なADM拡散モデルアーキテクチャにおいて、不均一かつ非効率なトレーニングの原因をいくつか特定し、修正する。
この哲学の体系的な応用は、観測されたドリフトと不均衡を排除し、同じ計算複雑性でネットワークをかなり良くする。
論文 参考訳(メタデータ) (2023-12-05T11:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。