Fugu-MT 論文翻訳(概要): BLoB: Bayesian Low-Rank Adaptation by Backpropagation for Large Language Models

論文の概要: BLoB: Bayesian Low-Rank Adaptation by Backpropagation for Large Language Models

arxiv url: http://arxiv.org/abs/2406.11675v3
Date: Fri, 27 Sep 2024 18:03:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.751015
Title: BLoB: Bayesian Low-Rank Adaptation by Backpropagation for Large Language Models
Title（参考訳）: BLoB:大規模言語モデルのバックプロパゲーションによるベイジアン低ランク適応
Authors: Yibin Wang, Haizhou Shi, Ligong Han, Dimitris Metaxas, Hao Wang,
Abstract要約: 大規模言語モデル(LLM)は、しばしば推論中に過剰な自信に悩まされる。本稿では,LLMパラメータの平均値と共分散値を連続的に調整するアルゴリズムであるバックプロパゲーション(BLoB)によるベイズ低ランク適応を提案する。その結果,分布内および分布外の両方で評価した場合,BLoBの有効性を一般化と不確実性評価の観点から検証した。
参考スコア（独自算出の注目度）: 13.953203993774233
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) often suffer from overconfidence during inference, particularly when adapted to downstream domain-specific tasks with limited data. Previous work addresses this issue by employing approximate Bayesian estimation after the LLMs are trained, enabling them to quantify uncertainty. However, such post-training approaches' performance is severely limited by the parameters learned during training. In this paper, we go beyond post-training Bayesianization and propose Bayesian Low-Rank Adaptation by Backpropagation (BLoB), an algorithm that continuously and jointly adjusts both the mean and covariance of LLM parameters throughout the whole fine-tuning process. Our empirical results verify the effectiveness of BLoB in terms of generalization and uncertainty estimation, when evaluated on both in-distribution and out-of-distribution data.
Abstract（参考訳）: 大規模言語モデル(LLM)は、特にデータ制限のある下流ドメイン固有のタスクに適応する場合、推論中に過信に悩まされることが多い。これまでの研究は、LLMを訓練した後、近似ベイズ推定を用いてこの問題に対処し、不確実性を定量化することを可能にした。しかし、そのようなポストトレーニングアプローチのパフォーマンスは、トレーニング中に学んだパラメータによって著しく制限される。本稿では,ベイジアン化後のベイジアン化を超越して,バックプロパゲーションによるベイジアン低ランク適応(BLoB)を提案する。実験により,分布内および分布外データの両方で評価した場合,BLoBの有効性を一般化と不確実性推定の観点から検証した。

関連論文リスト

BAPE: Learning an Explicit Bayes Classifier for Long-tailed Visual Recognition [78.70453964041718]
現在のディープラーニングアルゴリズムは通常、後部確率を簡易に推定することで最適分類器を解く。この単純な手法は、厳密にバランスのとれた学術ベンチマークデータセットに有効であることが証明されている。しかし、これは現実世界の長い尾のデータ分布には適用できない。本稿では,データ分布のより正確な理論的推定を行う新しい手法(BAPE)を提案する。
論文参考訳（メタデータ） (2025-06-29T15:12:50Z)
Mitigating Spurious Correlations in LLMs via Causality-Aware Post-Training [57.03005244917803]
大規模言語モデル (LLMs) は、事前学習中に得られた素早い相関関係により、アウト・オブ・ディストリビューション (OOD) のサンプルで失敗することが多い。ここでは、因果認識後学習(CAPT)を通して、このような素因的相関を緩和することを目的とする。公式因果推論ベンチマークCLadderと論理推論データセットPrOntoQAの実験により、CAPTで微調整された3Bスケールの言語モデルでは、従来のSFTおよびより大きなLLMを分散処理(ID)およびOODタスクで上回る結果が得られた。
論文参考訳（メタデータ） (2025-06-11T06:30:28Z)
Efficient Uncertainty Estimation via Distillation of Bayesian Large Language Models [12.69571386421462]
本稿では,不確実性推定のためのテスト時間サンプリングの必要性を解消する可能性を検討する。既成のベイズ式LLMを非ベイズ式LLMに蒸留し, 予測分布のばらつきを最小限に抑える。実験により,トレーニングデータにおける不確実性推定能力は,未確認テストデータにうまく一般化できることが実証された。
論文参考訳（メタデータ） (2025-05-16T22:26:03Z)
Entropy-regularized Gradient Estimators for Approximate Bayesian Inference [2.44755919161855]
本稿では,Kulback-Leibler分散系の勾配流を近似することにより,ベイズ後部を推定し,多様なサンプルを生成する。本研究は, モデルベース強化学習における手法の性能評価と有効性を検討するために, 分類タスクに関する経験的評価を行う。
論文参考訳（メタデータ） (2025-03-15T02:30:46Z)
Efficient Membership Inference Attacks by Bayesian Neural Network [12.404604217229101]
メンバーシップ推論攻撃(MIA)は、特定のデータポイントが与えられたモデルのトレーニングに使用されたかどうかを推定することを目的としている。本稿では,ベイジアン推論による条件付き攻撃を行う新しいアプローチとして,ベイジアンメンバーシップ推論攻撃(BMIA)を提案する。
論文参考訳（メタデータ） (2025-03-10T15:58:43Z)
In-Context Parametric Inference: Point or Distribution Estimators? [66.22308335324239]
償却点推定器は一般に後部推論より優れているが、後者は低次元問題では競争力がある。実験の結果, 償却点推定器は一般に後部推定より優れているが, 後者は低次元問題では競争力があることがわかった。
論文参考訳（メタデータ） (2025-02-17T10:00:24Z)
Training-Free Bayesianization for Low-Rank Adapters of Large Language Models [18.98810667057975]
トレーニング自由ベイジアン化(TFB)は、既存の既製のトレーニング済みのLoRAアダプタを、追加のトレーニングなしでベイジアンに変換する。 TFBは既存の手法に比べて精度の高い不確実性推定と一般化を実現していることを示す。
論文参考訳（メタデータ） (2024-12-07T18:49:27Z)
Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能評価のためのより効率的な指標として、事前学習損失に焦点を当てている。我々は、データソース間のFLOPに基づいて、ドメイン固有の事前学習損失を予測するために、電力法解析関数を拡張した。我々は2層ニューラルネットワークを用いて、複数のドメイン固有の損失と下流性能の非線形関係をモデル化する。
論文参考訳（メタデータ） (2024-10-11T04:57:48Z)
Self-Evolutionary Large Language Models through Uncertainty-Enhanced Preference Optimization [9.618391485742968]
反復的選好最適化は、最近、大規模言語モデル(LLM)のデファクトトレーニングパラダイムの1つになっている。我々は、信頼性の高いフィードバックでLLMを自己進化させる不確実性のあるtextbfPreference textbfOptimizationフレームワークを提案する。筆者らのフレームワークは,ノイズ問題を大幅に軽減し,反復的選好最適化の性能を向上させる。
論文参考訳（メタデータ） (2024-09-17T14:05:58Z)
Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。 GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文参考訳（メタデータ） (2023-12-19T06:06:30Z)
Unraveling Batch Normalization for Realistic Test-Time Adaptation [22.126177142716188]
本稿では,ミニバッチ劣化問題について考察する。バッチ正規化を解き放つことにより、不正確なターゲット統計は、バッチのクラス多様性が大幅に減少することに起因することが判明した。テスト時間指数移動平均(TEMA)という簡単なツールを導入し、トレーニングとテストバッチ間のクラス多様性のギャップを埋める。
論文参考訳（メタデータ） (2023-12-15T01:52:35Z)
Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文参考訳（メタデータ） (2023-10-06T16:36:08Z)
Beyond Deep Ensembles: A Large-Scale Evaluation of Bayesian Deep Learning under Distribution Shift [19.945634052291542]
我々は、WILDSコレクションから現実のデータセットに対する最新のBDLアルゴリズムを評価し、難解な分類と回帰タスクを含む。我々は、大規模な、畳み込み、トランスフォーマーベースのニューラルネットワークアーキテクチャにおいて、アルゴリズムを比較した。そこで本研究では,BDLを用いた大規模事前学習モデルのシステム評価を行った。
論文参考訳（メタデータ） (2023-06-21T14:36:03Z)
Personalized Federated Learning under Mixture of Distributions [98.25444470990107]
本稿では,ガウス混合モデル(GMM)を用いたPFL(Personalized Federated Learning)を提案する。 FedGMMはオーバーヘッドを最小限に抑え、新しいクライアントに適応する付加的なアドバンテージを持ち、不確実な定量化を可能にします。 PFL分類と新しいサンプル検出の両方において, 合成データセットとベンチマークデータセットの実証評価により, 提案手法の優れた性能を示した。
論文参考訳（メタデータ） (2023-05-01T20:04:46Z)
On the Practicality of Deterministic Epistemic Uncertainty [106.06571981780591]
決定論的不確実性法(DUM)は,分布外データの検出において高い性能を達成する。 DUMが十分に校正されており、現実のアプリケーションにシームレスにスケールできるかどうかは不明だ。
論文参考訳（メタデータ） (2021-07-01T17:59:07Z)
Scalable Marginal Likelihood Estimation for Model Selection in Deep Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文参考訳（メタデータ） (2021-04-11T09:50:24Z)
Adaptive Sampling for Estimating Distributions: A Bayesian Upper Confidence Bound Approach [30.76846526324949]
既存の高信頼境界(UCB)ベースのアプローチのベイズ多様体が提案される。ロサンゼルス郡のセロプレバレンス調査から得られたデータを用いて,この戦略の有効性を考察した。
論文参考訳（メタデータ） (2020-12-08T00:53:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。