論文の概要: LaX: Boosting Low-Rank Training of Foundation Models via Latent Crossing
- arxiv url: http://arxiv.org/abs/2505.21732v1
- Date: Tue, 27 May 2025 20:22:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.273966
- Title: LaX: Boosting Low-Rank Training of Foundation Models via Latent Crossing
- Title(参考訳): LaX: ラテントクロスによるファンデーションモデルの低ランクトレーニングの促進
- Authors: Ruijie Zhang, Ziyue Liu, Zhengyang Wang, Zheng Zhang,
- Abstract要約: 我々は,低ランクサブスペース間の情報フローを可能にすることで,低ランクモデルのキャパシティを向上させるプラグイン・アンド・プレイモジュールである textbfLatent Crossing (LaX) を紹介する。
LaXは2-3(times)少ないパラメータを使用しながら、低ランクモデルのパフォーマンスをフルランクのベースラインにマッチまたは超えるように向上する。
- 参考スコア(独自算出の注目度): 20.05011892836286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training foundation models such as ViTs and LLMs requires tremendous computing cost. Low-rank matrix or tensor factorization offers a parameter-efficient alternative, but often downgrades performance due to the restricted parameter space. In this work, we introduce {\textbf{Latent Crossing (LaX)}} -- a simple yet effective plug-and-play module that enhances the capacity of low-rank models by enabling information flow across low-rank subspaces. We extensively validate the benefits of LaX on pre-training tasks with ViT-Base/Large and LLaMA-like models ranging from 60M to 1B parameters. LaX boosts low-rank model performance to match or exceed the full-rank baselines while using 2-3\(\times\) fewer parameters. When equipped with low-rank adapters (i.e., LoRA) for fine-tuning LLaMA-7/13B, LaX consistently improves performance on arithmetic and common sense reasoning tasks with negligible cost.
- Abstract(参考訳): ViTやLLMといった基礎モデルのトレーニングには膨大な計算コストが要る。
低ランク行列またはテンソル因子化はパラメータ効率の代替を提供するが、制限されたパラメータ空間のためにしばしば性能を低下させる。
本稿では,低ランク部分空間を横断する情報フローを実現することで,低ランクモデルのキャパシティを向上する,シンプルで効果的なプラグアンドプレイモジュールである.textbf{Latent Crossing (LaX)}}を紹介する。
我々は、ViT-Base/LargeとLLaMAのような60Mから1Bパラメータを用いた事前学習タスクにおけるLaXの利点を広範囲に検証した。
LaXは2-3\(\times\)少ないパラメータを使用しながら、低ランクモデルのパフォーマンスをフルランクのベースラインにマッチまたは超えるように向上させる。
微調整のLLaMA-7/13B用のローランクアダプタ(LoRA)を備えると、LaXは算術および常識推論タスクの性能を無視できるコストで一貫して改善する。
関連論文リスト
- LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - CoLA: Compute-Efficient Pre-Training of LLMs via Low-Rank Activation [17.807249890437767]
我々は,計算効率の高いオートエンコーダを用いて,CoLAとそのメモリ効率の高い実装であるCoLA-Mを提案する。
6000万から70億のパラメータを持つLLaMAモデルに対する実験は、CoLAが計算コストを$bf 2pmbtimes$.bf 2pmbtimes$.comに削減したことを示している。
CoLA-Mはスループットを犠牲にすることなくメモリコストをさらに削減し、全体として優れたパラメータ、計算、メモリ効率を備えた事前学習アプローチを提供する。
論文 参考訳(メタデータ) (2025-02-16T01:05:16Z) - Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、PEFT (Efficient Fine Tuning) 法として人気がある。
よりコンパクトで柔軟な表現を可能にする高階Candecomp/Parafac(CP)分解を提案する。
本手法は,比較性能を維持しつつパラメータ数を削減できる。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - SLTrain: a sparse plus low-rank approach for parameter and memory efficient pretraining [39.56934385513862]
大規模言語モデル(LLM)をゼロから訓練するには、計算能力と広範なメモリ容量が必要である。
最近の研究では、パラメータとメモリの点で効率的な微調整のための重量の低ランク構造を探索している。
本稿では,SLTrain と呼ばれる事前学習用低ランク行列とスパース行列の和として重みをパラメータ化することを提案する。
論文 参考訳(メタデータ) (2024-06-04T11:14:21Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。