論文の概要: Variational Low-Rank Adaptation Using IVON
- arxiv url: http://arxiv.org/abs/2411.04421v1
- Date: Thu, 07 Nov 2024 04:17:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:40:31.696293
- Title: Variational Low-Rank Adaptation Using IVON
- Title(参考訳): IVONを用いた変分低ランク適応
- Authors: Bai Cong, Nico Daheim, Yuesong Shen, Daniel Cremers, Rio Yokota, Mohammad Emtiyaz Khan, Thomas Möllenhoff,
- Abstract要約: 変動学習はローランド適応(LoRA)の精度と校正を著しく向上させることができることを示す。
我々はAdamWを改良変分オンラインニュートン(IVON)アルゴリズムで置き換え、大きな言語モデルを微調整する。
- 参考スコア(独自算出の注目度): 50.0349688602232
- License:
- Abstract: We show that variational learning can significantly improve the accuracy and calibration of Low-Rank Adaptation (LoRA) without a substantial increase in the cost. We replace AdamW by the Improved Variational Online Newton (IVON) algorithm to finetune large language models. For Llama-2 with 7 billion parameters, IVON improves the accuracy over AdamW by 2.8% and expected calibration error by 4.6%. The accuracy is also better than the other Bayesian alternatives, yet the cost is lower and the implementation is easier. Our work provides additional evidence for the effectiveness of IVON for large language models. The code is available at https://github.com/team-approx-bayes/ivon-lora.
- Abstract(参考訳): 変動学習は,コストを大幅に増大させることなく,ローランド適応(LoRA)の精度と校正を著しく向上させることができることを示す。
我々はAdamWを改良変分オンラインニュートン(IVON)アルゴリズムで置き換え、大きな言語モデルを微調整する。
70億のパラメータを持つLlama-2では、IVONはAdamWの精度を2.8%改善し、キャリブレーション誤差を4.6%改善する。
精度は他のベイズ方式よりも優れているが、コストは低く、実装も容易である。
我々の研究は、大きな言語モデルに対するIVONの有効性を示す追加の証拠を提供する。
コードはhttps://github.com/team-approx-bayes/ivon-lora.comで公開されている。
関連論文リスト
- A hybrid framework for effective and efficient machine unlearning [12.499101994047862]
マシン・アンラーニング(MU)は、既に訓練済みのモデルパラメータから取り消されたサンプルのインプリントを取り除くために提案されている。
我々は、その上で、全体的な成功を達成するために、新しいハイブリッド戦略を提示する。
論文 参考訳(メタデータ) (2024-12-19T03:59:26Z) - How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上
低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。
これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文 参考訳(メタデータ) (2024-11-27T10:51:00Z) - MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
深層ニューラルネットワークのための統合トレーニングフレームワークを提案する。
我々は,事前条件付き勾配最適化を利用するMARSの3つの例を紹介する。
その結果,MARSの実装はAdamより一貫して優れていた。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - LoRA$^2$ : Multi-Scale Low-Rank Approximations for Fine-Tuning Large Language Models [3.7049613588433497]
Low-Rank Adaptation (LoRA)は、微調整のためのトレーニング可能なパラメータの数を著しく削減する。
LoRAを複数のスケールに拡張し、LoRA$2$と名付けます。
論文 参考訳(メタデータ) (2024-08-13T12:31:30Z) - Variational Learning is Effective for Large Deep Networks [76.94351631300788]
改良された変分オンラインニュートンは、大規模ネットワークのトレーニングにおいて、Adamと一貫して一致し、より優れていることを示す。
IVONの計算コストはAdamとほぼ同じであるが、予測の不確実性の方が優れている。
変分学習が効果的であるという圧倒的な証拠を見出す。
論文 参考訳(メタデータ) (2024-02-27T16:11:05Z) - A Close Look into the Calibration of Pre-trained Language Models [56.998539510508515]
事前訓練された言語モデル(PLM)は、予測の不確かさを確実に見積もることに失敗する可能性がある。
トレーニングにおけるPLMの校正性能の動的変化について検討する。
最近提案された2つの学習可能な手法を拡張して、モデルを直接収集し、合理的な信頼度を推定する。
論文 参考訳(メタデータ) (2022-10-31T21:31:07Z) - Are Larger Pretrained Language Models Uniformly Better? Comparing
Performance at the Instance Level [38.64433236359172]
BERT-Largeは、MNLI、SST-2、QQPのインスタンスの少なくとも1~4%でBERT-Miniよりも悪い。
ファインタニングノイズはモデルサイズとともに増加し、そのインスタンスレベルの精度は運動量を持つ。
以上の結果から,インスタンスレベルの予測は豊富な情報源を提供することが示唆された。
論文 参考訳(メタデータ) (2021-05-13T01:10:51Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。