論文の概要: Scalable Variational Bayesian Fine-Tuning of LLMs via Orthogonalized Low-Rank Adapters
- arxiv url: http://arxiv.org/abs/2604.03388v1
- Date: Fri, 03 Apr 2026 18:42:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.549811
- Title: Scalable Variational Bayesian Fine-Tuning of LLMs via Orthogonalized Low-Rank Adapters
- Title(参考訳): 直交型低ランクアダプタによるLLMのスケーラブルな変分ベイズ微調整
- Authors: Haotian Xiang, Bingcong Li, Qin Lu,
- Abstract要約: 不確実性定量化(UQ)は、大規模言語モデル(LLM)の信頼性を自己評価する上で最も重要である。
我々は、LLMに基づく決定論的特徴抽出器に不確実性推論のためのランダムな最終層パラメータが続くベイズ最後の層(BLL)モデルを構築した。
我々は変分(V)推論フレームワークを活用して、スケーラブルなベイズ微調整アプローチを提案する。
- 参考スコア(独自算出の注目度): 13.718993776070434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When deploying large language models (LLMs) to safety-critical applications, uncertainty quantification (UQ) is of utmost importance to self-assess the reliability of the LLM-based decisions. However, such decisions typically suffer from overconfidence, particularly after parameter-efficient fine-tuning (PEFT) for downstream domain-specific tasks with limited data. Existing methods to alleviate this issue either rely on Laplace approximation based post-hoc framework, which may yield suboptimal calibration depending on the training trajectory, or variational Bayesian training that requires multiple complete forward passes through the entire LLM backbone at inference time for Monte Carlo estimation, posing scalability challenges for deployment. To address these limitations, we build on the Bayesian last layer (BLL) model, where the LLM-based deterministic feature extractor is followed by random last layer parameters for uncertainty reasoning. Since existing low-rank adapters (LoRA) for PEFT have limited expressiveness due to rank collapse, we address this with Polar-decomposed Low-rank Adapter Representation (PoLAR), an orthogonalized parameterization paired with Riemannian optimization to enable more stable and expressive adaptation. Building on this PoLAR-BLL model, we leverage the variational (V) inference framework to put forth a scalable Bayesian fine-tuning approach which jointly seeks the PoLAR parameters and approximate posterior of the last layer parameters via alternating optimization. The resulting PoLAR-VBLL is a flexible framework that nicely integrates architecture-enhanced optimization with scalable Bayesian inference to endow LLMs with well-calibrated UQ. Our empirical results verify the effectiveness of PoLAR-VBLL in terms of generalization and uncertainty estimation on both in-distribution and out-of-distribution data for various common-sense reasoning tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)を安全クリティカルなアプリケーションにデプロイする場合、不確実性定量化(UQ)はLLMベースの決定の信頼性を自己評価する上で最も重要である。
しかし、そのような決定は通常、特にデータ制限のある下流ドメイン固有のタスクに対してパラメータ効率の良い微調整(PEFT)を行った後、過信に悩まされる。
この問題を緩和するための既存の手法は、ラプラス近似に基づくポストホックフレームワークに依存しており、トレーニングの軌跡によって最適なキャリブレーションをもたらす可能性がある。
これらの制約に対処するために,LLMに基づく決定論的特徴抽出器に不確実性推論のためのランダムな最終層パラメータが続くベイズ最後の層(BLL)モデルを構築した。
PEFT用の既存のローランクアダプタ(LoRA)は、ランク崩壊による表現性に制限があるため、より安定かつ表現的な適応を可能にするために、リーマン最適化と組み合わせた直交パラメタライゼーションである極分解低ランクアダプタ表現(PoLAR)を用いてこの問題に対処する。
このPoLAR-BLLモデルに基づいて、変分(V)推論フレームワークを活用し、変分最適化により、PoLARパラメータと最終層のパラメータの近似後部を共同で求めるスケーラブルなベイズ微調整手法を提案する。
結果として得られるPoLAR-VBLLは、アーキテクチャの強化された最適化とスケーラブルなベイズ推論をうまく統合し、よく校正されたUQでLLMを許容する柔軟なフレームワークである。
実験により,PoLAR-VBLLの一般化と不確実性評価が,各種常識推論タスクにおける分布内および分布外データに与える影響を検証した。
関連論文リスト
- Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - Fine-tuning LLMs with variational Bayesian last layer for high-dimensional Bayesian optimization [4.12346015436419]
高い評価コストを伴うブラックボックス最適化問題は、サンプル効率でブラックボックス最適化問題を解く必要がある。
本稿では,高次元の入力変数から目的関数へのマッピングをモデル化するニューラルネットワークに基づくサロゲートを提案する。
提案した(ENS-)LoRA-VBLL手法の様々な高次元ベンチマークおよび実世界の分子最適化タスクにおける性能を実証する。
論文 参考訳(メタデータ) (2025-10-01T21:28:50Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - BLoB: Bayesian Low-Rank Adaptation by Backpropagation for Large Language Models [13.953203993774233]
大規模言語モデル(LLM)は、しばしば推論中に過剰な自信に悩まされる。
本稿では,LLMパラメータの平均値と共分散値を連続的に調整するアルゴリズムであるバックプロパゲーション(BLoB)によるベイズ低ランク適応を提案する。
その結果,分布内および分布外の両方で評価した場合,BLoBの有効性を一般化と不確実性評価の観点から検証した。
論文 参考訳(メタデータ) (2024-06-17T15:55:38Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。