Fugu-MT 論文翻訳(概要): Efficient Pre-Training of LLMs through Truncated SVD Layers

論文の概要: Efficient Pre-Training of LLMs through Truncated SVD Layers

arxiv url: http://arxiv.org/abs/2605.28573v1
Date: Wed, 27 May 2026 14:57:49 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-28 17:38:56.133224
Title: Efficient Pre-Training of LLMs through Truncated SVD Layers
Title（参考訳）: 縮合SVD層によるLCMの効率的な事前評価
Authors: Kaivan Kamali, Kajetan Schweighofer, Hormoz Shahrzad, Olivier Francon, Babak Hodjat, Risto Miikkulainen,
Abstract要約: LLM(Large Language Models)の大規模スケーリングにより、プレトレーニングはますますコストを抑えている。本稿では,トレーニングプロセスを通じて低位と厳密な正則性を維持するフレームワークであるTLVDを紹介する。
参考スコア（独自算出の注目度）: 10.385452357306955
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The massive scaling of Large Language Models (LLMs) has made pretraining increasingly cost-prohibitive. While low-rank representation and orthonormal weight matrices could in principle reduce parameter counts and computational overhead, most existing methods rely on static rank selection and do not enforce weight orthonormality due to high computational cost. This paper introduces TSVD, a framework that maintains low rank and strict orthonormality throughout the training process. It utilizes a spectral energy-based heuristic for adaptive rank selection, and a caching mechanisms to maintain orthonormality. Theoretical analysis justifies the advantage of the approach in pretraining dynamics and experiments across various model scales demonstrate that it is effective empirically. TSVD matches or exceeds the performance of full-parameter baselines while significantly reducing compute requirements. The approach thus offers a well-founded, practical, and scalable path toward efficient high-performance LLM pretraining.
Abstract（参考訳）: LLM(Large Language Models)の大規模スケールにより、プレトレーニングはますますコストを抑えるものになっている。低ランク表現と正則な重み行列は、原理的にはパラメータ数と計算オーバーヘッドを削減できるが、既存のほとんどの手法は静的な階数選択に依存しており、高い計算コストのために重みの正則性を強制しない。本稿では,トレーニングプロセスを通じて低位と厳密な正則性を維持するフレームワークであるTLVDを紹介する。スペクトルエネルギーに基づくヒューリスティックを適応的なランク選択に利用し、キャッシング機構を正則性を維持する。理論解析は、様々なモデルスケールにわたる事前学習の力学と実験におけるアプローチの利点を正当化し、それが有効であることを示す。 TSVDは、計算要求を大幅に削減しながら、フルパラメータベースラインのパフォーマンスにマッチまたは超過する。このアプローチは、効率的で実用的でスケーラブルなLLM事前トレーニングへのパスを提供する。

関連論文リスト

Beyond First-Order: Training LLMs with Stochastic Conjugate Subgradients and AdamW [2.028622227373579]
勾配に基づく降下(SGD)は、長い間、大きな言語モデル(LLM)の訓練の中心であった。本稿では,LLMを学習するための適応サンプリングとともに,共役下次法を提案する。
論文参考訳（メタデータ） (2025-07-01T23:30:15Z)
Reparameterized LLM Training via Orthogonal Equivalence Transformation [54.80172809738605]
直交同値変換を用いてニューロンを最適化する新しいトレーニングアルゴリズムPOETを提案する。 POETは、目的関数を安定して最適化し、一般化を改善する。我々は、大規模ニューラルネットワークのトレーニングにおいて、POETを柔軟かつスケーラブルにするための効率的な近似を開発する。
論文参考訳（メタデータ） (2025-06-09T17:59:34Z)
OSoRA: Output-Dimension and Singular-Value Initialized Low-Rank Adaptation [9.048461365342204]
大規模言語モデル(LLM)のための新しいPEFT法であるOSoRAを提案する。 OSoRAは、微調整中にトレーニング可能なパラメータの数を最小化することで、計算リソースの要求を大幅に削減する。数学的推論、常識推論、その他のベンチマークの総合的な評価は、OSoRAが最先端の手法と同等または優れた性能を達成していることを示している。
論文参考訳（メタデータ） (2025-05-20T13:34:06Z)
RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。 RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文参考訳（メタデータ） (2025-02-13T06:44:33Z)
The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文参考訳（メタデータ） (2025-01-21T20:23:22Z)
Refining Salience-Aware Sparse Fine-Tuning Strategies for Language Models [14.68920095399595]
SPEFT(Sparsity-based PEFT)は、モデルの重み行列にトレーニング可能なスパース適応を導入する。我々は、ゼロコストNASプロキシにインスパイアされたSPEFTのサリエンス指標を初めて体系的に評価した。静的マスキング戦略と動的マスキング戦略を比較し、トレーニング前にゼロでないエントリを事前に決定する静的マスキングが、パフォーマンスを犠牲にすることなく効率を向上することを示した。
論文参考訳（メタデータ） (2024-12-18T04:14:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。