論文の概要: Don't be lazy: CompleteP enables compute-efficient deep transformers
- arxiv url: http://arxiv.org/abs/2505.01618v1
- Date: Fri, 02 May 2025 22:45:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.194887
- Title: Don't be lazy: CompleteP enables compute-efficient deep transformers
- Title(参考訳): 怠けるな:CompletePは計算効率の良いディープトランスを可能にする
- Authors: Nolan Dey, Bin Claire Zhang, Lorenzo Noci, Mufan Li, Blake Bordelon, Shane Bergsma, Cengiz Pehlevan, Boris Hanin, Joel Hestness,
- Abstract要約: いくつかのパラメータ化は、モデル深さの変化に対して最適なベースHPを転送できない。
遅延学習システムにはまだパラメータ化が存在する可能性を示す理論を開発する。
我々は、Deep-wise HP Transferと非遅延学習の両方をすべての層で実現する、CompletePと呼ぶユニークなパラメータ化を特定し、採用する。
- 参考スコア(独自算出の注目度): 37.537295243472755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study compute efficiency of LLM training when using different parameterizations, i.e., rules for adjusting model and optimizer hyperparameters (HPs) as model size changes. Some parameterizations fail to transfer optimal base HPs (such as learning rate) across changes in model depth, requiring practitioners to either re-tune these HPs as they scale up (expensive), or accept sub-optimal training when re-tuning is prohibitive. Even when they achieve HP transfer, we develop theory to show parameterizations may still exist in the lazy learning regime where layers learn only features close to their linearization, preventing effective use of depth and nonlinearity. Finally, we identify and adopt the unique parameterization we call CompleteP that achieves both depth-wise HP transfer and non-lazy learning in all layers. CompleteP enables a wider range of model width/depth ratios to remain compute-efficient, unlocking shapes better suited for different hardware settings and operational contexts. Moreover, CompleteP enables 12-34\% compute efficiency improvements over the prior state-of-the-art.
- Abstract(参考訳): モデルサイズの変化としてモデルとオプティマイザハイパーパラメータ(HP)を調整するためのルールを,異なるパラメータ化を用いて使用する場合のLLMトレーニングの計算効率について検討した。
一部のパラメータ化では、モデル深度の変化によって最適なベースHP(学習率など)を転送することができないため、実践者はこれらのHPをスケールアップする際に再チューニングするか、あるいは再チューニングが禁止されたときに準最適トレーニングを受け入れる必要がある。
HP転送を達成しても, 層が線形化に近い特徴のみを学習し, 奥行きや非線形性を効果的に利用できない遅延学習システムにおいて, パラメータ化がまだ存在することを示す理論が開発されている。
最後に、Deep-wise HP転送と非遅延学習の両方をすべての層で実現する、CompletePと呼ぶユニークなパラメータ化を特定し、採用する。
CompletePにより、より広い範囲のモデル幅/深さ比が計算効率を保ち、異なるハードウェア設定や運用環境に適した形状をアンロックできる。
さらに、CompletePは従来の最先端よりも12~34倍の計算効率の向上を実現している。
関連論文リスト
- Histogram-based Parameter-efficient Tuning for Passive Sonar Classification [42.23422932643755]
本稿では,対象領域の統計を捕捉し,埋め込みを変調するHPT手法を提案する。
3つの下流受動的ソナーデータセット(ShipsEar、DeepShip、VTUAD)の実験結果から、HPTは従来のアダプタよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-21T16:36:38Z) - Towards hyperparameter-free optimization with differential privacy [9.193537596304669]
差分プライバシー(DP)は、ディープラーニングモデルをトレーニングする際のトレーニングデータを保護するプライバシー保護パラダイムである。
本研究では,任意のモデルを対象としたDP最適化に自動学習率スケジュールを適用し,各種言語および視覚タスクにおける最先端のDP性能を実現する。
論文 参考訳(メタデータ) (2025-03-02T02:59:52Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Compressible Dynamics in Deep Overparameterized Low-Rank Learning & Adaptation [12.07880147193174]
モデルパラメータ内のデータと圧縮可能な力学の固有な低次元構造を利用することで、計算負担を伴わずにパラメータ化の利点を享受できることが示される。
提案手法は,低ランク行列と微調整言語モデルに対して有効であることを示す。
論文 参考訳(メタデータ) (2024-06-06T14:29:49Z) - Parameter Efficient Adaptation for Image Restoration with Heterogeneous Mixture-of-Experts [52.39959535724677]
画像復元モデルの一般化を改善するための代替手法を提案する。
ローカル,グローバル,チャネル表現ベースをキャプチャするマルチブランチ設計のMixture-of-Experts (MoE) であるAdaptIRを提案する。
我々のAdaptIRは、単一劣化タスクにおける安定した性能を実現し、8時間間、微調整はわずか0.6%のパラメータしか持たず、ハイブリッド劣化タスクにおいて優れる。
論文 参考訳(メタデータ) (2023-12-12T14:27:59Z) - Scalable One-Pass Optimisation of High-Dimensional Weight-Update
Hyperparameters by Implicit Differentiation [0.0]
近似的過勾配型ハイパーパラメータオプティマイザを開発した。
トレーニングは1回のみであり、再スタートは行わない。
また、真の過次性への収束を動機づける議論も提供する。
論文 参考訳(メタデータ) (2021-10-20T09:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。