論文の概要: Training-Free Bayesianization for Low-Rank Adapters of Large Language Models
- arxiv url: http://arxiv.org/abs/2412.05723v1
- Date: Sat, 07 Dec 2024 18:49:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:59:21.994516
- Title: Training-Free Bayesianization for Low-Rank Adapters of Large Language Models
- Title(参考訳): 大規模言語モデルの低ランク適応に対する学習自由ベイズ化
- Authors: Haizhou Shi, Yibin Wang, Ligong Han, Huan Zhang, Hao Wang,
- Abstract要約: トレーニング自由ベイジアン化(TFB)は、既存の既製のトレーニング済みのLoRAアダプタを、追加のトレーニングなしでベイジアンに変換する。
TFBは既存の手法に比べて精度の高い不確実性推定と一般化を実現していることを示す。
- 参考スコア(独自算出の注目度): 18.98810667057975
- License:
- Abstract: Estimating the uncertainty of responses of Large Language Models~(LLMs) remains a critical challenge. While recent Bayesian methods have demonstrated effectiveness in quantifying uncertainty through low-rank weight updates, they typically require complex fine-tuning or post-training procedures. In this paper, we propose Training-Free Bayesianization~(TFB), a novel framework that transforms existing off-the-shelf trained LoRA adapters into Bayesian ones without additional training. TFB systematically searches for the maximally acceptable level of variance in the weight posterior, constrained within a family of low-rank isotropic Gaussian distributions. We theoretically demonstrate that under mild conditions, this search process is equivalent to variational inference for the weights. Through comprehensive experiments, we show that TFB achieves superior uncertainty estimation and generalization compared to existing methods while eliminating the need for complex training procedures. Code will be available at https://github.com/Wang-ML-Lab/bayesian-peft.
- Abstract(参考訳): 大規模言語モデル~(LLM)の応答の不確実性の推定は依然として重要な課題である。
最近のベイズ法では、低ランクの重み付けによって不確実性を定量化する効果が証明されているが、通常は複雑な微調整やポストトレーニングの手順を必要とする。
本稿では,既存の既製のトレーニング済みLoRAアダプタを,余分なトレーニングなしでベイジアンに変換する新しいフレームワークであるトレーニング自由ベイジアン化~(TFB)を提案する。
TFBは、低ランク等方性ガウス分布の族の中で制約された重量後部の最大許容レベルの分散を体系的に探索する。
理論的には、軽度条件下では、この探索過程は重みに対する変分推論と等価である。
包括的実験により、TFBは、複雑な訓練手順の必要性を排除しつつ、既存の手法よりも優れた不確実性推定と一般化を実現していることを示す。
コードはhttps://github.com/Wang-ML-Lab/bayesian-peft.comから入手できる。
関連論文リスト
- BLoB: Bayesian Low-Rank Adaptation by Backpropagation for Large Language Models [13.953203993774233]
大規模言語モデル(LLM)は、しばしば推論中に過剰な自信に悩まされる。
本稿では,LLMパラメータの平均値と共分散値を連続的に調整するアルゴリズムであるバックプロパゲーション(BLoB)によるベイズ低ランク適応を提案する。
その結果,分布内および分布外の両方で評価した場合,BLoBの有効性を一般化と不確実性評価の観点から検証した。
論文 参考訳(メタデータ) (2024-06-17T15:55:38Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Beyond Deep Ensembles: A Large-Scale Evaluation of Bayesian Deep
Learning under Distribution Shift [19.945634052291542]
我々は、WILDSコレクションから現実のデータセットに対する最新のBDLアルゴリズムを評価し、難解な分類と回帰タスクを含む。
我々は、大規模な、畳み込み、トランスフォーマーベースのニューラルネットワークアーキテクチャにおいて、アルゴリズムを比較した。
そこで本研究では,BDLを用いた大規模事前学習モデルのシステム評価を行った。
論文 参考訳(メタデータ) (2023-06-21T14:36:03Z) - Deep Anti-Regularized Ensembles provide reliable out-of-distribution
uncertainty quantification [4.750521042508541]
深層アンサンブルは、しばしばトレーニングドメインの外で過度に信頼された見積を返す。
トレーニングデータに適合する大きな重みを持つネットワークの集合は、これらの2つの目的を満たす可能性が高いことを示す。
提案手法の理論的枠組みを導出し,提案手法を「水充填問題」とみなすことができることを示す。
論文 参考訳(メタデータ) (2023-04-08T15:25:12Z) - Proposal Distribution Calibration for Few-Shot Object Detection [65.19808035019031]
few-shot object detection (FSOD)では、重度のサンプル不均衡を軽減するために、2段階の訓練パラダイムが広く採用されている。
残念ながら、極端なデータ不足は、提案の分布バイアスを増大させ、RoIヘッドが新しいクラスに進化するのを妨げます。
本稿では,RoIヘッドのローカライゼーションと分類能力を高めるために,単純かつ効果的な提案分布キャリブレーション(PDC)手法を提案する。
論文 参考訳(メタデータ) (2022-12-15T05:09:11Z) - Learning to Re-weight Examples with Optimal Transport for Imbalanced
Classification [74.62203971625173]
不均衡データは、ディープラーニングに基づく分類モデルに課題をもたらす。
不均衡なデータを扱うための最も広く使われているアプローチの1つは、再重み付けである。
本稿では,分布の観点からの最適輸送(OT)に基づく新しい再重み付け手法を提案する。
論文 参考訳(メタデータ) (2022-08-05T01:23:54Z) - PLATON: Pruning Large Transformer Models with Upper Confidence Bound of
Weight Importance [114.1541203743303]
本稿では,重要度推定の上位信頼度境界(UCB)による重要度スコアの不確かさを捉えるPLATONを提案する。
我々は、自然言語理解、質問応答、画像分類に関するトランスフォーマーモデルを用いて、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2022-06-25T05:38:39Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。