Fugu-MT 論文翻訳(概要): Functional-level Uncertainty Quantification for Calibrated Fine-tuning on LLMs

論文の概要: Functional-level Uncertainty Quantification for Calibrated Fine-tuning on LLMs

arxiv url: http://arxiv.org/abs/2410.06431v1
Date: Wed, 9 Oct 2024 00:09:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-01 05:49:25.993748
Title: Functional-level Uncertainty Quantification for Calibrated Fine-tuning on LLMs
Title（参考訳）: LLMの校正微調整のための機能レベルの不確かさ定量化
Authors: Ruijia Niu, Dongxia Wu, Rose Yu, Yi-An Ma,
Abstract要約: 大規模言語モデル(LLM)のためのキャリブレートファインチューニング(UQ4CT)のための関数レベル不確実性定量化を提案する。 UQ4CTは5ドルのベンチマークで高い精度を維持しつつ、期待エラー(ECE)を25%以上削減することを示した。
参考スコア（独自算出の注目度）: 21.94487480599671
License: http://creativecommons.org/licenses/by/4.0/
Abstract: From common-sense reasoning to domain-specific tasks, parameter-efficient fine tuning (PEFT) methods for large language models (LLMs) have showcased significant performance improvements on downstream tasks. However, fine-tuned LLMs often struggle with overconfidence in uncertain predictions, particularly due to sparse training data. This overconfidence reflects poor epistemic uncertainty calibration, which arises from limitations in the model's ability to generalize with limited data. Existing PEFT uncertainty quantification methods for LLMs focus on the post fine-tuning stage and thus have limited capability in calibrating epistemic uncertainty. To address these limitations, we propose Functional-Level Uncertainty Quantification for Calibrated Fine-Tuning (UQ4CT), which captures and calibrates functional-level epistemic uncertainty during the fine-tuning stage via a mixture-of-expert framework. We show that UQ4CT reduces Expected Calibration Error (ECE) by more than $25\%$ while maintaining high accuracy across $5$ benchmarks. Furthermore, UQ4CT maintains superior ECE performance with high accuracy under distribution shift, showcasing improved generalizability.
Abstract（参考訳）: 共通センス推論からドメイン固有タスクに至るまで、大規模言語モデル(LLM)のためのパラメータ効率のよい微調整(PEFT)手法は下流タスクにおいて顕著な性能向上を示した。しかし、微調整のLLMは、不確実な予測において、特に訓練データが少ないため、過信に悩まされることが多い。この過信は、限られたデータで一般化するモデルの能力の限界から生じる、疫学的な不確実性の校正の欠如を反映している。 LLMの既存のPEFT不確実性定量法は, 術後の微調整段階に焦点をあてており, 疫学不確実性の校正に限界がある。これらの制約に対処するため,我々は,機能レベル不確実性定量化手法 (UQ4CT) を提案する。 UQ4CTは,5ドルのベンチマークで高い精度を維持しつつ,予測校正誤差(ECE)を25\%以上削減することを示した。さらに、UQ4CTは、分布シフト時に高い精度で優れたECE性能を維持し、一般化性の向上を示す。

関連論文リスト

COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。 COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文参考訳（メタデータ） (2025-06-25T07:04:49Z)
Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文参考訳（メタデータ） (2025-04-10T07:50:03Z)
Quantize What Counts: Bit Allocation Insights Informed by Spectral Gaps in Keys and Values [57.54443445583921]
KV量子化法の拡張を目的とした2つの新しい定理を提供する。我々の最初の定理は、キー値ノルム格差(Key-Value Norm Disparity)と呼ばれ、鍵重み行列がよりリッチな情報を持っていることを述べる。第2の定理であるキー駆動量子化(Key-Driven Quantization)は、値上のキーの量子化精度の優先順位付けは、全体的な量子化性能に大きな改善をもたらすという仮説である。
論文参考訳（メタデータ） (2025-02-20T22:24:27Z)
COPU: Conformal Prediction for Uncertainty Quantification in Natural Language Generation [14.461333001997449]
大規模言語モデル(LLM)の性能評価には,自然言語生成のための不確実性定量化(UQ)が不可欠である。提案手法は,候補出力に基底真理を明示的に付加し,ロジットスコアを用いて非整合性を測定する手法である。
論文参考訳（メタデータ） (2025-02-18T07:25:12Z)
Monty Hall and Optimized Conformal Prediction to Improve Decision-Making with LLMs [7.843594672029363]
Con conformal prediction (CP) は分布のない不確実性定量化のためのモデルに依存しないフレームワークである。 CP-OPTは、カバー範囲を維持しながら、設定サイズを最小化するスコアを学習するための最適化フレームワークである。また,可能な選択肢を予測セットに限定することで,問題を修正するために,Emphconformal revision of question (CROQ)を提案する。
論文参考訳（メタデータ） (2024-12-31T17:33:12Z)
GAQAT: gradient-adaptive quantization-aware training for domain generalization [54.31450550793485]
そこで本研究では,DGのためのGAQAT(Gradient-Adaptive Quantization-Aware Training)フレームワークを提案する。我々のアプローチは、低精度量子化におけるスケール・グラディエント・コンフリクト問題を特定することから始まる。 GAQATフレームワークの有効性を実験により検証した。
論文参考訳（メタデータ） (2024-12-07T06:07:21Z)
Calibrating Deep Neural Network using Euclidean Distance [5.675312975435121]
機械学習では、Focal Lossは、サンプルの分類が難しいことを強調することで、誤分類率を減らすために一般的に使用される。高校正誤差は予測確率と実際の結果との相違を示し、モデルの信頼性に影響を及ぼす。本研究では,FCL (Focal Loss) と呼ばれる新しい損失関数を導入する。
論文参考訳（メタデータ） (2024-10-23T23:06:50Z)
Feature Clipping for Uncertainty Calibration [24.465567005078135]
現代のディープニューラルネットワーク(DNN)は、しばしば過剰な自信に悩まされ、誤校正につながる。この問題に対処するために,特徴クリッピング(FC)と呼ばれるポストホックキャリブレーション手法を提案する。 FCは特定の閾値に特徴値をクリップし、高い校正誤差サンプルのエントロピーを効果的に増加させる。
論文参考訳（メタデータ） (2024-10-16T06:44:35Z)
Calibrating Language Models with Adaptive Temperature Scaling [58.056023173579625]
本稿では,各トークンの温度スケーリングパラメータを予測するポストホックキャリブレーション法であるAdaptive Temperature Scaling (ATS)を紹介する。 ATSは、以前のキャリブレーション法と比較して、3つの下流自然言語評価ベンチマークで10-50%以上のキャリブレーションを改善する。
論文参考訳（メタデータ） (2024-09-29T22:54:31Z)
ConU: Conformal Uncertainty in Large Language Models with Correctness Coverage Guarantees [68.33498595506941]
自己整合性理論に基づく新しい不確実性尺度を導入する。次に,CPアルゴリズムに正当性に整合した不確かさ条件を組み込むことにより,適合性不確かさの基準を策定する。実証的な評価は、我々の不確実性測定が過去の最先端手法よりも優れていることを示している。
論文参考訳（メタデータ） (2024-06-29T17:33:07Z)
Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文参考訳（メタデータ） (2024-05-28T20:43:53Z)
Confidence-aware Fine-tuning of Sequential Recommendation Systems via Conformal Prediction [46.76846936581471]
Sequential Recommendation Systems (SRecsys)では、クロスエントロピー(CE)損失に依存する従来のトレーニングアプローチは、精度を優先することが多いが、ユーザの満足度指標とうまく一致しない。コンフォーマル予測(CP)に基づく損失をCE損失と統合した新しい微調整フレームワークである textbfCPFT を提案する。
論文参考訳（メタデータ） (2024-02-14T06:43:02Z)
L4Q: Parameter Efficient Quantization-Aware Fine-Tuning on Large Language Models [5.304907804008533]
量子化学習(QAT)とローランド適応(LoRA)を統合したL4Qを提案する。メモリ最適化レイヤ設計を採用することで、L4QはQATのメモリオーバーヘッドを大幅に削減し、トレーニングコストはLoRAに匹敵する。この量子化法と微調整法の組み合わせにより精度が向上することを示した。
論文参考訳（メタデータ） (2024-02-07T14:35:05Z)
Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。 GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文参考訳（メタデータ） (2023-12-19T06:06:30Z)
Memory-Efficient Fine-Tuning of Compressed Large Language Models via sub-4-bit Integer Quantization [27.79783067245817]
大規模言語モデル(LLM)は、高いメモリ要求と計算コストのため、微調整とデプロイメントの課題に直面している。本稿では,PEFT と量子化 LLM の利点を組み合わせた簡易かつ効果的な手法である PEQA (Efficient Adaptation and Quantization-aware) を提案する。
論文参考訳（メタデータ） (2023-05-23T15:20:01Z)
Towards Accurate Post-Training Quantization for Vision Transformer [48.779346466374406]
既存のトレーニング後の量子化手法は依然として深刻な性能低下を引き起こしている。 APQ-ViTは、既存のトレーニング後の量子化手法を証明マージンによって超越している。
論文参考訳（メタデータ） (2023-03-25T03:05:26Z)
Few-Shot Calibration of Set Predictors via Meta-Learned Cross-Validation-Based Conformal Prediction [33.33774397643919]
本稿では,設定した予測サイズを減らすことを目的としたメタ学習ソリューションを提案する。より効率的なバリデーションベースのCPではなく、クロスバリデーションベースのCP上に構築されている。これは、厳格なタスク・マージナル保証を減らすのではなく、正式なタスク毎のキャリブレーション保証を保持する。
論文参考訳（メタデータ） (2022-10-06T17:21:03Z)
Optimal Clipping and Magnitude-aware Differentiation for Improved Quantization-aware Training [8.106641866299377]
現在のプラクティスは、クリッピングしきい値スカラーを設定するためにスカラーに依存しており、最適であることを示すことはできない。最適クリッピングスカラーを決定するアルゴリズムであるOptimally Clippeds And Vectors (OCTAV)を提案する。 OCTAVは、量子化認識トレーニング(QAT)ルーチンのイテレーション毎に、テンソル毎に、フライ時に最適なクリッピングスカラーを見つける。
論文参考訳（メタデータ） (2022-06-13T22:15:21Z)
Parameterized Temperature Scaling for Boosting the Expressive Power in Post-Hoc Uncertainty Calibration [57.568461777747515]
我々は新しいキャリブレーション手法であるパラメタライズド温度スケーリング(PTS)を導入する。最新のポストホックキャリブレータの精度保持性能は、その本質的な表現力によって制限されることを実証します。当社の新しい精度保存手法が,多数のモデルアーキテクチャやデータセット,メトリクスにおいて,既存のアルゴリズムを一貫して上回っていることを示す。
論文参考訳（メタデータ） (2021-02-24T10:18:30Z)
Amortized Conditional Normalized Maximum Likelihood: Reliable Out of Distribution Uncertainty Estimation [99.92568326314667]
本研究では,不確実性推定のための拡張性のある汎用的アプローチとして,償却条件正規化最大値(ACNML)法を提案する。提案アルゴリズムは条件付き正規化最大度(CNML)符号化方式に基づいており、最小記述長の原理に従って最小値の最適特性を持つ。我々は、ACNMLが、分布外入力のキャリブレーションの観点から、不確実性推定のための多くの手法と好意的に比較することを示した。
論文参考訳（メタデータ） (2020-11-05T08:04:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。