論文の概要: Variational Low-Rank Adaptation Using IVON
- arxiv url: http://arxiv.org/abs/2411.04421v1
- Date: Thu, 07 Nov 2024 04:17:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:40:31.696293
- Title: Variational Low-Rank Adaptation Using IVON
- Title(参考訳): IVONを用いた変分低ランク適応
- Authors: Bai Cong, Nico Daheim, Yuesong Shen, Daniel Cremers, Rio Yokota, Mohammad Emtiyaz Khan, Thomas Möllenhoff,
- Abstract要約: 変動学習はローランド適応(LoRA)の精度と校正を著しく向上させることができることを示す。
我々はAdamWを改良変分オンラインニュートン(IVON)アルゴリズムで置き換え、大きな言語モデルを微調整する。
- 参考スコア(独自算出の注目度): 50.0349688602232
- License:
- Abstract: We show that variational learning can significantly improve the accuracy and calibration of Low-Rank Adaptation (LoRA) without a substantial increase in the cost. We replace AdamW by the Improved Variational Online Newton (IVON) algorithm to finetune large language models. For Llama-2 with 7 billion parameters, IVON improves the accuracy over AdamW by 2.8% and expected calibration error by 4.6%. The accuracy is also better than the other Bayesian alternatives, yet the cost is lower and the implementation is easier. Our work provides additional evidence for the effectiveness of IVON for large language models. The code is available at https://github.com/team-approx-bayes/ivon-lora.
- Abstract(参考訳): 変動学習は,コストを大幅に増大させることなく,ローランド適応(LoRA)の精度と校正を著しく向上させることができることを示す。
我々はAdamWを改良変分オンラインニュートン(IVON)アルゴリズムで置き換え、大きな言語モデルを微調整する。
70億のパラメータを持つLlama-2では、IVONはAdamWの精度を2.8%改善し、キャリブレーション誤差を4.6%改善する。
精度は他のベイズ方式よりも優れているが、コストは低く、実装も容易である。
我々の研究は、大きな言語モデルに対するIVONの有効性を示す追加の証拠を提供する。
コードはhttps://github.com/team-approx-bayes/ivon-lora.comで公開されている。
関連論文リスト
- LoRA$^2$ : Multi-Scale Low-Rank Approximations for Fine-Tuning Large Language Models [3.7049613588433497]
Low-Rank Adaptation (LoRA)は、微調整のためのトレーニング可能なパラメータの数を著しく削減する。
LoRAを複数のスケールに拡張し、LoRA$2$と名付けます。
論文 参考訳(メタデータ) (2024-08-13T12:31:30Z) - COBias and Debias: Minimizing Language Model Pairwise Accuracy Bias via Nonlinear Integer Programming [12.287692969438169]
文脈バイアス(COBias)として再認識することで、クラスごとの予測精度における言語モデルの不均衡に取り組む。
我々は非線形整数計画法(NIP)に初めて取り組んだ。
DNIPは従来のICL法に比べてCOBiasの削減と精度の向上を同時に達成する。
論文 参考訳(メタデータ) (2024-05-13T10:30:33Z) - Variational Learning is Effective for Large Deep Networks [76.94351631300788]
改良された変分オンラインニュートンは、大規模ネットワークのトレーニングにおいて、Adamと一貫して一致し、より優れていることを示す。
IVONの計算コストはAdamとほぼ同じであるが、予測の不確実性の方が優れている。
変分学習が効果的であるという圧倒的な証拠を見出す。
論文 参考訳(メタデータ) (2024-02-27T16:11:05Z) - Neural Priming for Sample-Efficient Adaptation [92.14357804106787]
ニューラルプライミング(Neural Priming)は、大規模な事前学習されたモデルを分散シフトや下流タスクに適応させる手法である。
ニューラルプライミングは、LAION-2Bほどの大きさの事前訓練であっても、テスト時に行うことができる。
論文 参考訳(メタデータ) (2023-06-16T21:53:16Z) - A Close Look into the Calibration of Pre-trained Language Models [56.998539510508515]
事前訓練された言語モデル(PLM)は、予測の不確かさを確実に見積もることに失敗する可能性がある。
トレーニングにおけるPLMの校正性能の動的変化について検討する。
最近提案された2つの学習可能な手法を拡張して、モデルを直接収集し、合理的な信頼度を推定する。
論文 参考訳(メタデータ) (2022-10-31T21:31:07Z) - Are Larger Pretrained Language Models Uniformly Better? Comparing
Performance at the Instance Level [38.64433236359172]
BERT-Largeは、MNLI、SST-2、QQPのインスタンスの少なくとも1~4%でBERT-Miniよりも悪い。
ファインタニングノイズはモデルサイズとともに増加し、そのインスタンスレベルの精度は運動量を持つ。
以上の結果から,インスタンスレベルの予測は豊富な情報源を提供することが示唆された。
論文 参考訳(メタデータ) (2021-05-13T01:10:51Z) - BayCANN: Streamlining Bayesian Calibration with Artificial Neural
Network Metamodeling [77.34726150561087]
本稿では,ベイズ校正の限界に対する一解法として,人工知能ニューラルネットワーク(ANN)を提案する。
大腸癌の自然史モデルを腺腫発生率と癌発生率データに校正することにより,BayCANNを実証した。
BayCANNは一般に「真の」値の回復においてIMISよりも正確であった。
論文 参考訳(メタデータ) (2020-10-26T09:47:39Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。