論文の概要: Calibrated Adaptation: Bayesian Stiefel Manifold Priors for Reliable Parameter-Efficient Fine-Tuning
- arxiv url: http://arxiv.org/abs/2602.17809v1
- Date: Thu, 19 Feb 2026 20:17:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.134423
- Title: Calibrated Adaptation: Bayesian Stiefel Manifold Priors for Reliable Parameter-Efficient Fine-Tuning
- Title(参考訳): Calibrated Adaptation:Reliable Parameter-Efficient Fine-TuningのためのBayesian Stiefel Manifold Press
- Authors: Ibne Farabi Shihab, Sanjeda Akter, Anuj Sharma,
- Abstract要約: ベイズ的PEFTフレームワークであるStiefel-Bayes Adapters (SBA) を導入し、Stiefel 多様体 $St$ 上の正規直交適応因子よりも先に Matrix Langevin を配置する。
そこで,SBA は LoRA と DoRA に匹敵するタスク性能を達成し,予測誤差を 18 ~ 34% 削減した。
我々の結果は、不確実性を正しい幾何学的構造の上に置くことは、単にアダプタにベイズ処理を加えることよりも重要であることを証明している。
- 参考スコア(独自算出の注目度): 6.908972852063454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parameter-efficient fine-tuning methods such as LoRA enable practical adaptation of large language models but provide no principled uncertainty estimates, leading to poorly calibrated predictions and unreliable behavior under domain shift. We introduce Stiefel-Bayes Adapters (SBA), a Bayesian PEFT framework that places a Matrix Langevin prior over orthonormal adapter factors on the Stiefel manifold $\St$ and performs approximate posterior inference via tangent space Laplace approximation with geodesic retraction. Unlike Gaussian priors in flat space projected onto orthogonality constraints, our prior on the manifold naturally encodes the inductive bias that adapter subspaces should be well conditioned and orthogonal, while the posterior provides calibrated predictive uncertainty without recalibration. We prove formally that the tangent space approximation strictly avoids the structural variance inflation inherent in projecting from ambient space, establishing a rigorous theoretical advantage for intrinsic manifold inference. Across GLUE and SuperGLUE benchmarks on RoBERTa-large, LLaMA-2-7B, LLaMA-2-13B, Mistral-7B, and Qwen2.5-7B, domain shift evaluations, selective prediction protocols, and an abstractive summarization task, SBA achieves task performance comparable to LoRA and DoRA while reducing Expected Calibration Error by 18 to 34\% over deterministic baselines, improving selective prediction AUROC by 12 to 25\% under domain shift, and outperforming deep ensembles of five LoRA models on OOD detection at a fraction of the parameter cost. Our results demonstrate that where you place uncertainty, on the right geometric structure, matters more than simply adding any Bayesian treatment to adapters.
- Abstract(参考訳): LoRAのようなパラメータ効率のよい微調整手法は、大きな言語モデルの実践的な適応を可能にするが、原理的な不確実性推定は提供せず、ドメインシフトの下では、調整の不十分な予測と信頼性の低い振る舞いをもたらす。
ベイズ PEFT フレームワークであるStiefel-Bayes Adapters (SBA) を導入し、Stiefel 多様体 $\St$ 上の正規直交適応因子よりも先に Matrix Langevin を配置し、接空間 Laplace 近似と測地的レトラクションを用いて近似後部推論を行う。
平面空間のガウス先行が直交制約に射影されるのと異なり、多様体上の我々の先行は、アダプター部分空間が十分に条件付きかつ直交であるべき帰納的バイアスを自然に符号化する。
我々は、接空間近似が、周囲空間からの射影に固有の構造的分散インフレーションを厳密に回避し、固有多様体の推論に対して厳密な理論的優位性を確立することを正式に証明する。
GLUEとSuperGLUEのRoBERTa-large、LLaMA-2-7B、LLaMA-2-13B、Mistral-7B、Qwen2.5-7Bのベンチマーク、ドメインシフト評価、選択的な予測プロトコル、抽象的な要約タスク、SBAは、期待されるキャリブレーション誤差を18~34倍減らしながらLoRAとDoRAに匹敵するタスク性能を達成し、ドメインシフトの12~25倍減らし、OOD検出の5つのLoRAモデルの深いアンサンブルを、パラメータコストのごく一部で上回る。
我々の結果は、不確実性を正しい幾何学的構造の上に置くことは、単にアダプタにベイズ処理を加えることよりも重要であることを証明している。
関連論文リスト
- Calibrating Agent-Based Financial Markets Simulators with Pretrainable Automatic Posterior Transformation-Based Surrogates [5.002657036975061]
エージェントベースモデル(ABM)は複雑な社会システムをシミュレーションするための重要な最適化問題である。
目的は、シミュレーションデータと実世界の観測との差を最小限に抑えて、与えられたABMの最適パラメータを特定することである。
既存の手法では,1) ABMの非線形だがマルチモーダルな性質のため,元の評価関数のサロゲートは困難であり,2) 一般的なサロゲートは複数のキャリブレーションタスク間で最適化経験を共有できない。
本研究は、負相関探索と適応信頼回帰を用いた自動後部変換を提案する。
論文 参考訳(メタデータ) (2026-01-11T14:05:26Z) - Robust and Efficient Zeroth-Order LLM Fine-Tuning via Adaptive Bayesian Subspace Optimizer [4.6561758107970395]
ゼロオーダー (ZO) 最適化による微調整大型言語モデル (LLM) は,関数評価による勾配の近似によりメモリ削減を行う。
適応型textbfBayesian textbfSubspace textbfZeroth-Order textbfOptimizer について紹介する。
論文 参考訳(メタデータ) (2026-01-04T09:35:11Z) - On the Optimal Construction of Unbiased Gradient Estimators for Zeroth-Order Optimization [57.179679246370114]
既存の手法の潜在的な制限は、ステップサイズが提案されない限り、ほとんどの摂動推定器に固有のバイアスである。
本稿では, 良好な構成を維持しつつ, バイアスを排除した非バイアス勾配スケーリング推定器のファミリーを提案する。
論文 参考訳(メタデータ) (2025-10-22T18:25:43Z) - From Noisy Traces to Stable Gradients: Bias-Variance Optimized Preference Optimization for Aligning Large Reasoning Models [90.45197506653341]
大規模推論モデルは最終回答を生成する前に中間的推論トレースを生成する。
LRMと人間の好みの整合性は、モデルデプロイメントにとって重要な前提条件であり、まだ過小評価されていない。
共通の回避策は1つのサンプル軌道を最適化し、トレースサンプリングからかなり勾配のばらつきをもたらす。
論文 参考訳(メタデータ) (2025-10-06T17:58:01Z) - Fine-tuning LLMs with variational Bayesian last layer for high-dimensional Bayesian optimization [4.12346015436419]
高い評価コストを伴うブラックボックス最適化問題は、サンプル効率でブラックボックス最適化問題を解く必要がある。
本稿では,高次元の入力変数から目的関数へのマッピングをモデル化するニューラルネットワークに基づくサロゲートを提案する。
提案した(ENS-)LoRA-VBLL手法の様々な高次元ベンチマークおよび実世界の分子最適化タスクにおける性能を実証する。
論文 参考訳(メタデータ) (2025-10-01T21:28:50Z) - Precise Bayesian Neural Networks [0.0]
我々は,現代的な正規化アーキテクチャに適合し,精度を犠牲にすることなくキャリブレーションを改善する軽量で実装可能な変分ユニットを開発した。
簡単に言えば、変分後部をネットワーク固有の幾何学と整合させることで、BNNは同時に原理化され、実用的で、正確である。
論文 参考訳(メタデータ) (2025-06-24T15:42:00Z) - Revisiting Essential and Nonessential Settings of Evidential Deep Learning [70.82728812001807]
Evidential Deep Learning (EDL) は不確実性推定の新しい手法である。
本報告では,EDLの簡易かつ効果的な拡張型であるRe-EDLを提案する。
論文 参考訳(メタデータ) (2024-10-01T04:27:07Z) - A Deep Dive into the Trade-Offs of Parameter-Efficient Preference Alignment Techniques [63.10251271444959]
大規模言語モデルは最初、数兆のトークンで事前訓練され、その後、特定の好みに合わせて命令調整または調整される。
我々は,3つの重要な軸に対する人気選択の影響を詳細に調査する。
300以上の実験にまたがるセットアップでは、一貫した傾向と予期せぬ結果が明らかになる。
論文 参考訳(メタデータ) (2024-06-07T12:25:51Z) - Curvature-Informed SGD via General Purpose Lie-Group Preconditioners [6.760212042305871]
曲率情報を利用して勾配降下(SGD)を加速する新しい手法を提案する。
提案手法は,行列フリープレコンディショナーと低ランクプレコンディショナーの2つのプレコンディショナーを含む。
プレコンディショニングされたSGD(PSGD)は、ビジョン、NLP、RLタスクにおいてSoTAよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-07T03:18:00Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Transferable Calibration with Lower Bias and Variance in Domain
Adaptation [139.4332115349543]
ドメイン適応(DA)は、ラベル付きソースドメインからラベル付きターゲットドメインへの学習マシンの転送を可能にする。
DAモデルの予測的不確実性を推定する方法は、安全クリティカルなシナリオにおける意思決定に不可欠である。
TransCalは既存のDAメソッドの校正に簡単に適用できる。
論文 参考訳(メタデータ) (2020-07-16T11:09:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。