論文の概要: Gaussian Stochastic Weight Averaging for Bayesian Low-Rank Adaptation of Large Language Models
- arxiv url: http://arxiv.org/abs/2405.03425v1
- Date: Mon, 6 May 2024 12:44:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 13:46:36.249664
- Title: Gaussian Stochastic Weight Averaging for Bayesian Low-Rank Adaptation of Large Language Models
- Title(参考訳): 大規模言語モデルのベイジアン低ランク適応のためのガウス確率重み平均化
- Authors: Emre Onal, Klemens Flöge, Emma Caldwell, Arsen Sheverdin, Vincent Fortuin,
- Abstract要約: 細調整された大規模言語モデル(LLM)は、しばしば過剰な自信とキャリブレーションに悩まされる。
本稿では,Low-Rank Adaptation (LoRA) とGaussian Weight Averaging (SWAG) を組み合わせた簡単な組み合わせを提案する。
本手法は,分布シフトに対するロバスト性を示す。
- 参考スコア(独自算出の注目度): 5.352221132808875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuned Large Language Models (LLMs) often suffer from overconfidence and poor calibration, particularly when fine-tuned on small datasets. To address these challenges, we propose a simple combination of Low-Rank Adaptation (LoRA) with Gaussian Stochastic Weight Averaging (SWAG), facilitating approximate Bayesian inference in LLMs. Through extensive testing across several Natural Language Processing (NLP) benchmarks, we demonstrate that our straightforward and computationally efficient approach improves model generalization and calibration. We further show that our method exhibits greater robustness against distribution shift, as reflected in its performance on out-of-distribution tasks.
- Abstract(参考訳): 微調整された大規模言語モデル(LLM)は、特に小さなデータセットで微調整された場合、過信とキャリブレーションに悩まされることが多い。
これらの課題に対処するために,Low-Rank Adaptation (LoRA) と Gaussian Stochastic Weight Averaging (SWAG) を組み合わせた簡単な組み合わせを提案する。
自然言語処理(NLP)ベンチマークの広範なテストを通じて、我々の単純で効率的なアプローチがモデルの一般化とキャリブレーションを改善することを実証する。
さらに,本手法は,分布シフトに対するロバスト性が高く,アウト・オブ・ディストリビューションタスクの性能に反映されていることを示す。
関連論文リスト
- Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - GIFT-SW: Gaussian noise Injected Fine-Tuning of Salient Weights for LLMs [51.02233412547456]
我々は,Gaussian noise Injected Fine Tuning of Salient Weights (GIFT-SW)と呼ばれる新しいPEFT法を提案する。
本手法では, ガウス雑音を非正弦波に注入しながら, 正弦波列のみを更新する。
LLaMAモデルによる実験により、GIFT-SWは、同じ計算予算の下で、完全な微調整および現代的なPEFTメソッドよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-08-27T14:41:14Z) - Regression-aware Inference with LLMs [52.764328080398805]
提案手法は,一般的な回帰と評価指標に準最適であることを示す。
本稿では,ベイズ最適解を推定し,サンプル応答からクローズド形式の評価指標を推定する代替推論手法を提案する。
論文 参考訳(メタデータ) (2024-03-07T03:24:34Z) - Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - Optimization of Annealed Importance Sampling Hyperparameters [77.34726150561087]
Annealed Importance Smpling (AIS) は、深層生成モデルの難易度を推定するために使われる一般的なアルゴリズムである。
本稿では、フレキシブルな中間分布を持つパラメータAISプロセスを提案し、サンプリングに少ないステップを使用するようにブリッジング分布を最適化する。
我々は, 最適化AISの性能評価を行い, 深部生成モデルの限界推定を行い, 他の推定値と比較した。
論文 参考訳(メタデータ) (2022-09-27T07:58:25Z) - Generalised Gaussian Process Latent Variable Models (GPLVM) with
Stochastic Variational Inference [9.468270453795409]
ミニバッチ学習が可能なBayesianVMモデルの2倍の定式化について検討する。
このフレームワークが、異なる潜在変数の定式化とどのように互換性を持つかを示し、モデルの組を比較する実験を行う。
我々は、膨大な量の欠落データの存在下でのトレーニングと、高忠実度再構築の実施を実証する。
論文 参考訳(メタデータ) (2022-02-25T21:21:51Z) - Scalable Cross Validation Losses for Gaussian Process Models [22.204619587725208]
線形および多クラス分類に適応するために,Polya-Gamma補助変数と変分推論を用いる。
提案手法は,高速トレーニングと優れた予測性能を実現する。
論文 参考訳(メタデータ) (2021-05-24T21:01:47Z) - Scalable Control Variates for Monte Carlo Methods via Stochastic
Optimization [62.47170258504037]
本稿では,制御,カーネル,ニューラルネットワークを用いた既存のアプローチを包含し,一般化するフレームワークを提案する。
新たな理論的結果は、達成可能な分散還元に関する洞察を与えるために提示され、ベイズ推定への応用を含む経験的評価が支持される。
論文 参考訳(メタデータ) (2020-06-12T22:03:25Z) - Fitting Laplacian Regularized Stratified Gaussian Models [0.0]
データから複数の関連するゼロ平均ガウス分布を共同推定する問題を考察する。
本稿では,大規模な問題にスケールする分散手法を提案するとともに,金融,レーダ信号処理,天気予報などの手法の有効性について述べる。
論文 参考訳(メタデータ) (2020-05-04T18:00:59Z) - Sparse Gaussian Processes Revisited: Bayesian Approaches to
Inducing-Variable Approximations [27.43948386608]
変数の誘導に基づく変分推論手法はガウス過程(GP)モデルにおけるスケーラブルな推定のためのエレガントなフレームワークを提供する。
この研究において、変分フレームワークにおけるインプットの最大化は最適な性能をもたらすという共通の知恵に挑戦する。
論文 参考訳(メタデータ) (2020-03-06T08:53:18Z) - Bayesian Neural Networks With Maximum Mean Discrepancy Regularization [13.97417198693205]
画像分類タスクを含む複数のベンチマークにおいて,BNNの精度が向上することを示す。
また, ある予測に対する不確実性を推定するための新しい定式化を行い, 敵の攻撃に対してより堅牢な行動を示す。
論文 参考訳(メタデータ) (2020-03-02T14:54:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。