論文の概要: Calibrating Long-form Generations from Large Language Models
- arxiv url: http://arxiv.org/abs/2402.06544v1
- Date: Fri, 9 Feb 2024 17:00:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 16:01:25.844848
- Title: Calibrating Long-form Generations from Large Language Models
- Title(参考訳): 大規模言語モデルからの校正長文生成
- Authors: Yukun Huang, Yixin Liu, Raghuveer Thirukovalluru, Arman Cohan, Bhuwan
Dhingra
- Abstract要約: 大きな言語モデル(LLM)の信頼性スコアは、その応答が正しいという実際の可能性と一致すべきである。
現在の信頼性評価手法とキャリブレーション基準は、応答の正しさを2値の真/偽評価に頼っている。
本稿では,LLMの応答の正しさと関連する信頼度の両方を,様々なスコアの分布として扱う統一校正フレームワークを提案する。
- 参考スコア(独自算出の注目度): 37.2496541665881
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To enhance Large Language Models' (LLMs) reliability, calibration is
essential -- the model's assessed confidence scores should align with the
actual likelihood of its responses being correct. However, current confidence
elicitation methods and calibration metrics typically rely on a binary
true/false assessment of response correctness. This approach does not apply to
long-form generation, where an answer can be partially correct. Addressing this
gap, we introduce a unified calibration framework, in which both the
correctness of the LLMs' responses and their associated confidence levels are
treated as distributions across a range of scores. Within this framework, we
develop three metrics to precisely evaluate LLM calibration and further propose
two confidence elicitation methods based on self-consistency and
self-evaluation. Our experiments, which include long-form QA and summarization
tasks, demonstrate that larger models don't necessarily guarantee better
calibration, that calibration performance is found to be metric-dependent, and
that self-consistency methods excel in factoid datasets. We also find that
calibration can be enhanced through techniques such as fine-tuning, integrating
relevant source documents, scaling the temperature, and combining
self-consistency with self-evaluation. Lastly, we showcase a practical
application of our system: selecting and cascading open-source models and
ChatGPT to optimize correctness given a limited API budget. This research not
only challenges existing notions of LLM calibration but also offers practical
methodologies for improving trustworthiness in long-form generation.
- Abstract(参考訳): 大規模言語モデル(LLM)の信頼性を高めるためには、キャリブレーションが不可欠である。
しかし、現在の信頼性評価手法とキャリブレーション基準は、通常、応答の正しさのバイナリ真/偽評価に依存している。
このアプローチは、答えが部分的に正しいようなロングフォーム生成には適用されない。
このギャップに対処するために,LLMの応答の正しさと関連する信頼度の両方を,様々なスコアの分布として扱う統一校正フレームワークを導入する。
本研究では,LCM校正を正確に評価する3つの指標を開発し,自己整合性と自己評価に基づく2つの信頼性評価手法を提案する。
長期QAと要約タスクを含む我々の実験は、大きめのモデルが必ずしもキャリブレーションの向上を保証していないこと、キャリブレーション性能がメートル法に依存していること、そして自己整合性手法がファクトイドデータセットより優れていることを実証している。
また,微調整,関連資料の統合,温度のスケーリング,自己整合性と自己評価の併用といった手法によって校正を向上できることがわかった。
最後に,このシステムの実用的応用について紹介する。api予算が限られているため,オープンソースモデルとchatgptを選択して,正確性を最適化する。
本研究は, LLMキャリブレーションの概念に挑戦するだけでなく, 長期化における信頼性向上のための実践的方法論を提供する。
関連論文リスト
- Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - On the Calibration of Large Language Models and Alignment [63.605099174744865]
信頼性キャリブレーションは、ディープモデルの信頼性を高める重要なツールである。
構築プロセス全体を通して、アライメント言語モデルの校正を体系的に検討する。
我々の研究は、人気のあるLCMが十分に校正されているか、トレーニングプロセスがモデルの校正にどのように影響するかに光を当てています。
論文 参考訳(メタデータ) (2023-11-22T08:57:55Z) - Calibration-Aware Bayesian Learning [31.31288398691955]
本稿では、キャリブレーション対応ベイズニューラルネットワーク(CA-BNN)と呼ばれる統合フレームワークを提案する。
ベイズ学習のように変分分布を最適化しながら、データ依存あるいはデータ非依存の正則化をそれぞれ適用する。
予測キャリブレーション誤差(ECE)と信頼性図を用いて,提案手法の利点を検証した。
論文 参考訳(メタデータ) (2023-05-12T14:19:15Z) - Modular Conformal Calibration [80.33410096908872]
回帰における再校正のためのアルゴリズムを多種多様なクラスで導入する。
このフレームワークは、任意の回帰モデルをキャリブレーションされた確率モデルに変換することを可能にする。
我々は17の回帰データセットに対するMCCの実証的研究を行った。
論文 参考訳(メタデータ) (2022-06-23T03:25:23Z) - Localized Calibration: Metrics and Recalibration [133.07044916594361]
完全大域キャリブレーションと完全個別化キャリブレーションのギャップにまたがる細粒度キャリブレーション指標を提案する。
次に,局所再校正法であるLoReを導入し,既存の校正法よりもLCEを改善する。
論文 参考訳(メタデータ) (2021-02-22T07:22:12Z) - Calibrating Structured Output Predictors for Natural Language Processing [8.361023354729731]
本稿では,ニューラルネットワークに基づく構造化予測モデルに注目する出力要素の一般的なキャリブレーション手法を提案する。
提案手法は,任意のバイナリクラスキャリブレーションスキームとニューラルネットワークモデルを用いて適用することができる。
提案手法は, 話者認識, パート・オブ・音声, 質問応答における現在のキャリブレーション手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-04-09T04:14:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。