Fugu-MT 論文翻訳(概要): ReLoRA: High-Rank Training Through Low-Rank Updates

論文の概要: ReLoRA: High-Rank Training Through Low-Rank Updates

arxiv url: http://arxiv.org/abs/2307.05695v4
Date: Sun, 10 Dec 2023 16:21:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-12 22:29:51.998888
Title: ReLoRA: High-Rank Training Through Low-Rank Updates
Title（参考訳）: ReLoRA:低ランク更新によるハイランクトレーニング
Authors: Vladislav Lialin, Namrata Shivagunde, Sherin Muckatira, Anna Rumshisky
Abstract要約: 本稿では、低ランク更新を利用して高ランクネットワークをトレーニングするReLoRAという新しい手法を提案する。 ReLoRAはGPU当たり最大5.5GbのRAMを節約し、モデルサイズとハードウェア設定に応じてトレーニング速度を9～40%改善する。
参考スコア（独自算出の注目度）: 14.606961537327345
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite the dominance and effectiveness of scaling, resulting in large networks with hundreds of billions of parameters, the necessity to train overparameterized models remains poorly understood, while training costs grow exponentially. In this paper, we explore parameter-efficient training techniques as an approach to training large neural networks. We introduce a novel method called ReLoRA, which utilizes low-rank updates to train high-rank networks. We apply ReLoRA to training transformer language models with up to 1.3B parameters and demonstrate comparable performance to regular neural network training. ReLoRA saves up to 5.5Gb of RAM per GPU and improves training speed by 9-40% depending on the model size and hardware setup. Our findings show the potential of parameter-efficient techniques for large-scale pre-training.
Abstract（参考訳）: 数十億のパラメータを持つ大規模ネットワークによるスケールの優位と有効性にもかかわらず、過剰パラメータモデルのトレーニングの必要性はいまだに理解されておらず、トレーニングコストは指数関数的に増加する。本稿では,大規模ニューラルネットワークのトレーニング手法としてパラメータ効率のトレーニング手法を検討する。高速ネットワークのトレーニングに低ランク更新を利用するReLoRAという新しい手法を提案する。最大1.3Bパラメータを持つトランスフォーマー言語モデルのトレーニングにReLoRAを適用し、通常のニューラルネットワークトレーニングに匹敵するパフォーマンスを示す。 ReLoRAはGPU当たり最大5.5GbのRAMを節約し、モデルサイズとハードウェア設定に応じてトレーニング速度を9～40%改善する。本研究は,大規模プレトレーニングにおけるパラメータ効率向上手法の可能性を示す。

関連論文リスト

PreLoRA: Hybrid Pre-training of Vision Transformers with Full Training and Low-Rank Adapters [2.5547655072779]
本稿では, 部分収束状態の同定と, ViT-Large モデル上での完全パラメータトレーニングからローランド適応 (LoRA) への切り替えを提案する。実験結果から,本手法はモデルの精度を保ちながら,トレーニング可能なパラメータの数を元のサイズの10%に減らしていることがわかった。
論文参考訳（メタデータ） (2025-09-25T21:34:17Z)
Replay-Free Continual Low-Rank Adaptation with Dynamic Memory [62.85596937435928]
我々は、事前学習された視覚変換器(ViT)が、時間とともに新しい下流タスクを逐次微調整できる連続学習を再考する。近年の研究では、CL技術とパラメータ効率の良い微調整の交差が強調されている。 DualLoRA (Dual Low-Rank Adaptation) と呼ばれる新しいPEFT-CL法を提案する。
論文参考訳（メタデータ） (2024-11-01T14:28:39Z)
SwitchLoRA: Switched Low-Rank Adaptation Can Learn Full-Rank Information [3.6859322366469933]
SwitchLoRAはパラメータ効率のトレーニング手法で、LoRAのトレーニング可能なパラメータを代替パラメータに頻繁にスムーズに置き換える。以上の結果から,SwitchLoRAはフルランクトレーニングを上回っていることがわかった。
論文参考訳（メタデータ） (2024-06-03T05:40:34Z)
An Empirical Analysis of Forgetting in Pre-trained Models with Incremental Low-Rank Updates [11.90029443742706]
本研究は,ローランド適応(LoRA)のランクが,事前学習の基礎課題の忘れ方,可塑性およびその後の課題の忘れ方に及ぼす影響について検討する。また、この方法で微調整された視覚トランスフォーマーは、残余のネットワークでは観測できないような、ある種の文脈的「忘れ」を示す。
論文参考訳（メタデータ） (2024-05-28T11:29:25Z)
Sparse Spectral Training and Inference on Euclidean and Hyperbolic Neural Networks [9.96381061452642]
SST(Sparse Spectral Training)は、全ての特異値を更新し、ネットワーク重みの特異ベクトルを選択的に更新する高度な訓練手法である。 SSTは、特異値の重み付けによる多項サンプリング法により決定される特異ベクトルに対する目標更新戦略を用いて、トレーニングプロセスを洗練する。 OPT-125Mでは、組込み寸法の8.3%に等しく、SSTはパープレキシティギャップを67.6%減らし、一般的なローランク法で性能損失を著しく低減した。
論文参考訳（メタデータ） (2024-05-24T11:59:41Z)
Always-Sparse Training by Growing Connections with Guided Stochastic Exploration [46.4179239171213]
本研究では,より大規模かつスペーサーなモデルへのスケーリングに優れる,効率的な常時スパーストレーニングアルゴリズムを提案する。我々は,VGGモデルとVTモデルを用いて,CIFAR-10/100 と ImageNet の手法を評価し,様々なスペーサー化手法と比較した。
論文参考訳（メタデータ） (2024-01-12T21:32:04Z)
Run LoRA Run: Faster and Lighter LoRA Implementations [50.347242693025336]
LoRAは、線形層に低ランクアダプタを導入することにより、ニューラルネットワーク内のトレーニング可能なパラメータの数を減らすテクニックである。本稿では,LoRAの効率的な実装のためのRunLoRAフレームワークを提案する。実験は、言語モデリングネットワーク上で最大28%のスピードアップを示す。
論文参考訳（メタデータ） (2023-12-06T10:54:34Z)
Low-rank Adaptation Method for Wav2vec2-based Fake Audio Detection [57.537583869961885]
自己教師型音声モデルは、偽音声検出において急速に発展している研究トピックである。我々は、wav2vec2モデルにローランク適応(LoRA)を適用し、トレーニング済みモデルの重みを凍結し、トランスアーキテクチャの各層にトレーニング可能なランク分解行列を注入する。 317Mのトレーニングパラメータを含むwav2vec2モデルのAdamの微調整と比較して、LoRAはトレーニング可能なパラメータの数を198倍減らして同様の性能を実現した。
論文参考訳（メタデータ） (2023-06-09T01:43:41Z)
Dimensionality Reduced Training by Pruning and Freezing Parts of a Deep Neural Network, a Survey [69.3939291118954]
最先端のディープラーニングモデルには、何十億にも達するパラメータカウントがある。そのようなモデルのトレーニング、保存、転送は、エネルギーと時間を要するため、コストがかかる。モデル圧縮は、ストレージと転送コストを低減し、フォワードおよび/または後方パスでの計算数を減少させることで、トレーニングをより効率的にすることができる。この研究は、トレーニング全体を通してディープラーニングモデルでトレーニングされた重量を減らす方法に関する調査である。
論文参考訳（メタデータ） (2022-05-17T05:37:08Z)
Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文参考訳（メタデータ） (2022-04-02T09:50:19Z)
M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文参考訳（メタデータ） (2021-10-08T04:24:51Z)
LoRA: Low-Rank Adaptation of Large Language Models [71.75808607987281]
Low-Rank Adaptation (LoRA)はトレーニング済みモデルの重みを凍結し、トレーニング可能な階数分解をTransformerアーキテクチャの各層に注入する。 GPT-3では、LoRAはトレーニング可能なパラメータの数を1万倍に減らし、計算ハードウェアの要求をフル微調整の3倍に削減できる。
論文参考訳（メタデータ） (2021-06-17T17:37:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。