Fugu-MT 論文翻訳(概要): Variational Low-Rank Adaptation Using IVON

論文の概要: Variational Low-Rank Adaptation Using IVON

arxiv url: http://arxiv.org/abs/2411.04421v2
Date: Sat, 09 Nov 2024 12:30:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:45.222381
Title: Variational Low-Rank Adaptation Using IVON
Title（参考訳）: IVONを用いた変分低ランク適応
Authors: Bai Cong, Nico Daheim, Yuesong Shen, Daniel Cremers, Rio Yokota, Mohammad Emtiyaz Khan, Thomas Möllenhoff,
Abstract要約: 変動学習はローランド適応(LoRA)の精度と校正を著しく向上させることができることを示す。我々はAdamWを改良変分オンラインニュートン(IVON)アルゴリズムで置き換え、大きな言語モデルを微調整する。
参考スコア（独自算出の注目度）: 50.0349688602232
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We show that variational learning can significantly improve the accuracy and calibration of Low-Rank Adaptation (LoRA) without a substantial increase in the cost. We replace AdamW by the Improved Variational Online Newton (IVON) algorithm to finetune large language models. For Llama-2 with 7 billion parameters, IVON improves the accuracy over AdamW by 2.8% and expected calibration error by 4.6%. The accuracy is also better than the other Bayesian alternatives, yet the cost is lower and the implementation is easier. Our work provides additional evidence for the effectiveness of IVON for large language models. The code is available at https://github.com/team-approx-bayes/ivon-lora.
Abstract（参考訳）: 変動学習は,コストを大幅に増大させることなく,ローランド適応(LoRA)の精度と校正を著しく向上させることができることを示す。我々はAdamWを改良変分オンラインニュートン(IVON)アルゴリズムで置き換え、大きな言語モデルを微調整する。 70億のパラメータを持つLlama-2では、IVONはAdamWの精度を2.8%改善し、キャリブレーション誤差を4.6%改善する。精度は他のベイズ方式よりも優れているが、コストは低く、実装も容易である。我々の研究は、大きな言語モデルに対するIVONの有効性を示す追加の証拠を提供する。コードはhttps://github.com/team-approx-bayes/ivon-lora.comで公開されている。

関連論文リスト

Improving LoRA with Variational Learning [21.194015348736066]
また,IVONを用いた変分学習がLoRAファインタニングを効果的に改善できることが示唆された。数十億のLLM (Llama および Qwen 級数) について,IVON の既存応用の規模を超える広範な結果を示す。
論文参考訳（メタデータ） (2025-06-17T07:49:43Z)
Variational Visual Question Answering [28.075269845580056]
マルチモーダルモデルの信頼性を高めるための変分VQA手法を提案する。モデルパラメータに後続分布を与えるIVONアルゴリズムを提案する。我々はAdamWの精度を犠牲にすることなくキャリブレーションと禁忌を改善する。
論文参考訳（メタデータ） (2025-05-14T17:40:22Z)
A hybrid framework for effective and efficient machine unlearning [12.499101994047862]
マシン・アンラーニング(MU)は、既に訓練済みのモデルパラメータから取り消されたサンプルのインプリントを取り除くために提案されている。我々は、その上で、全体的な成功を達成するために、新しいハイブリッド戦略を提示する。
論文参考訳（メタデータ） (2024-12-19T03:59:26Z)
How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文参考訳（メタデータ） (2024-11-27T10:51:00Z)
MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
深層ニューラルネットワークのための統合トレーニングフレームワークを提案する。我々は,事前条件付き勾配最適化を利用するMARSの3つの例を紹介する。その結果,MARSの実装はAdamより一貫して優れていた。
論文参考訳（メタデータ） (2024-11-15T18:57:39Z)
LoRA$^2$ : Multi-Scale Low-Rank Approximations for Fine-Tuning Large Language Models [3.7049613588433497]
Low-Rank Adaptation (LoRA)は、微調整のためのトレーニング可能なパラメータの数を著しく削減する。 LoRAを複数のスケールに拡張し、LoRA$2$と名付けます。
論文参考訳（メタデータ） (2024-08-13T12:31:30Z)
COBias and Debias: Minimizing Language Model Pairwise Accuracy Bias via Nonlinear Integer Programming [12.287692969438169]
文脈バイアス(COBias)として再認識することで、クラスごとの予測精度における言語モデルの不均衡に取り組む。我々は非線形整数計画法(NIP)に初めて取り組んだ。 DNIPは従来のICL法に比べてCOBiasの削減と精度の向上を同時に達成する。
論文参考訳（メタデータ） (2024-05-13T10:30:33Z)
Variational Learning is Effective for Large Deep Networks [76.94351631300788]
改良された変分オンラインニュートンは、大規模ネットワークのトレーニングにおいて、Adamと一貫して一致し、より優れていることを示す。 IVONの計算コストはAdamとほぼ同じであるが、予測の不確実性の方が優れている。変分学習が効果的であるという圧倒的な証拠を見出す。
論文参考訳（メタデータ） (2024-02-27T16:11:05Z)
Neural Priming for Sample-Efficient Adaptation [92.14357804106787]
ニューラルプライミング(Neural Priming)は、大規模な事前学習されたモデルを分散シフトや下流タスクに適応させる手法である。ニューラルプライミングは、LAION-2Bほどの大きさの事前訓練であっても、テスト時に行うことができる。
論文参考訳（メタデータ） (2023-06-16T21:53:16Z)
A Close Look into the Calibration of Pre-trained Language Models [56.998539510508515]
事前訓練された言語モデル(PLM)は、予測の不確かさを確実に見積もることに失敗する可能性がある。トレーニングにおけるPLMの校正性能の動的変化について検討する。最近提案された2つの学習可能な手法を拡張して、モデルを直接収集し、合理的な信頼度を推定する。
論文参考訳（メタデータ） (2022-10-31T21:31:07Z)
Are Larger Pretrained Language Models Uniformly Better? Comparing Performance at the Instance Level [38.64433236359172]
BERT-Largeは、MNLI、SST-2、QQPのインスタンスの少なくとも1～4%でBERT-Miniよりも悪い。ファインタニングノイズはモデルサイズとともに増加し、そのインスタンスレベルの精度は運動量を持つ。以上の結果から,インスタンスレベルの予測は豊富な情報源を提供することが示唆された。
論文参考訳（メタデータ） (2021-05-13T01:10:51Z)
BayCANN: Streamlining Bayesian Calibration with Artificial Neural Network Metamodeling [77.34726150561087]
本稿では,ベイズ校正の限界に対する一解法として,人工知能ニューラルネットワーク(ANN)を提案する。大腸癌の自然史モデルを腺腫発生率と癌発生率データに校正することにより,BayCANNを実証した。 BayCANNは一般に「真の」値の回復においてIMISよりも正確であった。
論文参考訳（メタデータ） (2020-10-26T09:47:39Z)
The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。 3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文参考訳（メタデータ） (2020-04-16T04:28:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。