論文の概要: Progressive Depth Up-scaling via Optimal Transport
- arxiv url: http://arxiv.org/abs/2508.08011v1
- Date: Mon, 11 Aug 2025 14:15:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.136696
- Title: Progressive Depth Up-scaling via Optimal Transport
- Title(参考訳): 最適輸送によるプログレッシブ深さアップスケーリング
- Authors: Mingzi Cao, Xi Wang, Nikolaos Aletras,
- Abstract要約: LLM(Large Language Models)をスケールすると、パフォーマンスが向上するが、かなりのトレーニングコストが発生する。
我々は、層間におけるニューロンの置換を緩和するために、OpT-DeUS(Optimal Transport Depth Up-Scaling)を提案する。
OpT-DeUSは、全体的なパフォーマンスの向上と、既存の方法よりもトレーニング効率の向上を実現している。
- 参考スコア(独自算出の注目度): 35.702343830424894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling Large Language Models (LLMs) yields performance gains but incurs substantial training costs. Depth up-scaling offers training efficiency by adding new layers to pre-trained models. However, most existing methods copy or average weights from base layers, neglecting neuron permutation differences. This limitation can potentially cause misalignment that harms performance. Inspired by applying Optimal Transport (OT) for neuron alignment, we propose Optimal Transport Depth Up-Scaling (OpT-DeUS). OpT-DeUS aligns and fuses Transformer blocks in adjacent base layers via OT for new layer creation, to mitigate neuron permutation mismatch between layers. OpT-DeUS achieves better overall performance and offers improved training efficiency than existing methods for continual pre-training and supervised fine-tuning across different model sizes. To further evaluate the impact of interpolation positions, our extensive analysis shows that inserting new layers closer to the top results in higher training efficiency due to shorter back-propagation time while obtaining additional performance gains.
- Abstract(参考訳): LLM(Large Language Models)をスケールすると、パフォーマンスが向上するが、かなりのトレーニングコストが発生する。
深度アップスケーリングは、事前トレーニングされたモデルに新しいレイヤを追加することで、トレーニング効率を提供する。
しかし、既存のほとんどの手法は、神経細胞の置換の違いを無視して、基底層から平均的な重量をコピーまたはコピーする。
この制限は、パフォーマンスを害する誤った調整を引き起こす可能性がある。
ニューロンアライメントにOT(Optimal Transport)を適用することで着想を得て,OpT-DeUS(Optimal Transport Depth Up-Scaling)を提案する。
OpT-DeUSは、層間のニューロンの置換ミスマッチを軽減するために、OTを介して隣接するベース層のトランスフォーマーブロックを整列し、ヒューズする。
OpT-DeUSは、全体的なパフォーマンスの向上と、モデルサイズをまたいだ継続的な事前トレーニングと教師付き微調整のための既存の方法よりも、トレーニング効率の向上を実現している。
補間位置の影響を更に評価するため,本研究では,新たな層を最上部に挿入すると,後方伝播時間短縮によるトレーニング効率が向上し,さらなる性能向上が期待できることを示した。
関連論文リスト
- Towards the Training of Deeper Predictive Coding Neural Networks [53.15874572081944]
平衡伝播で訓練された予測符号化ネットワークは、反復エネルギープロセスを通じて推論を行うニューラルネットワークである。
従来の研究では、浅層建築において効果が示されたが、深さが5層から7層を超えると性能が著しく低下した。
この劣化の原因は,重み更新時の層間エラーの指数的不均衡化と,より深い層内の更新を導く上で,前層からの予測が有効でないことにある。
論文 参考訳(メタデータ) (2025-06-30T12:44:47Z) - LARGO: Low-Rank Regulated Gradient Projection for Robust Parameter Efficient Fine-Tuning [39.56217775141507]
Low-rAnk Regulated Gradient Projection (LARGO)アルゴリズムは、動的制約を低ランク適応法に統合する。
LARGOは、ドメイン内および配布外のシナリオで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-14T08:19:11Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - AdaRankGrad: Adaptive Gradient-Rank and Moments for Memory-Efficient LLMs Training and Fine-Tuning [9.51289606759621]
大規模言語モデル(LLM)の訓練と微調整には、メモリと計算要求に関する課題が伴う。
低ランク適応(LoRA)など、これらの課題に対処する様々な技術が開発されている。
トレーニングが進むにつれて、推定勾配のランクが徐々に低下する現象に着想を得た新しい手法を導入する。
論文 参考訳(メタデータ) (2024-10-23T13:53:26Z) - Geometry-aware training of factorized layers in tensor Tucker format [6.701651480567394]
重みテンソルのタッカー分解の要因を学習するための新しい手法を提案する。
トレーニングの提案は, 元の非リファクタリング力学を局所的に近似する上で最適であることが証明された。
本稿では,アルゴリズムの理論解析を行い,収束,近似,局所降下保証を示す。
論文 参考訳(メタデータ) (2023-05-30T14:20:51Z) - Towards Memory- and Time-Efficient Backpropagation for Training Spiking
Neural Networks [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックコンピューティングのためのエネルギー効率の高いモデルである。
本研究では,学習効率を大幅に向上させつつ,高い性能を達成できる空間学習時間(SLTT)法を提案する。
BPTTと比較して, メモリコストとトレーニング時間は, それぞれ70%以上, 50%以上削減されている。
論文 参考訳(メタデータ) (2023-02-28T05:01:01Z) - MetaLR: Meta-tuning of Learning Rates for Transfer Learning in Medical
Imaging [22.203645869758155]
転送学習は、限られた医療データに基づいて、ディープニューラルネットワーク(DNN)をうまく一般化するための強力な方法である。
本研究では,メタ学習に基づくLRチューナであるMetaLRを提案する。
様々な医学応用に関する大規模な実験により、MetaLRは従来のSOTA(State-of-the-art)ファインチューニング戦略よりも優れていたことが示されている。
論文 参考訳(メタデータ) (2022-06-03T06:31:11Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。