論文の概要: Calibrating Long-form Generations from Large Language Models
- arxiv url: http://arxiv.org/abs/2402.06544v2
- Date: Fri, 25 Oct 2024 21:29:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:19:35.864394
- Title: Calibrating Long-form Generations from Large Language Models
- Title(参考訳): 大規模言語モデルからの校正長文生成
- Authors: Yukun Huang, Yixin Liu, Raghuveer Thirukovalluru, Arman Cohan, Bhuwan Dhingra,
- Abstract要約: 大きな言語モデル(LLM)の信頼性スコアは、その応答が正しいという実際の可能性と一致すべきである。
現在の信頼性評価手法とキャリブレーション基準は、応答の正しさを2値の真/偽評価に頼っている。
本稿では,LLMの応答の正しさと関連する信頼度の両方を,様々なスコアの分布として扱う統一校正フレームワークを提案する。
- 参考スコア(独自算出の注目度): 34.72041258464477
- License:
- Abstract: To enhance Large Language Models' (LLMs) reliability, calibration is essential -- the model's assessed confidence scores should align with the actual likelihood of its responses being correct. However, current confidence elicitation methods and calibration metrics typically rely on a binary true/false assessment of response correctness. This approach does not apply to long-form generation, where an answer can be partially correct. Addressing this gap, we introduce a unified calibration framework, in which both the correctness of the LLMs' responses and their associated confidence levels are treated as distributions across a range of scores. Within this framework, we develop three metrics to precisely evaluate LLM calibration and further propose two confidence elicitation methods based on self-consistency and self-evaluation. Our experiments, which include long-form QA and summarization tasks, demonstrate that larger models don't necessarily guarantee better calibration, that calibration performance is found to be metric-dependent, and that self-consistency methods excel in factoid datasets. We also find that calibration can be enhanced through techniques such as fine-tuning, integrating relevant source documents, scaling the temperature, and combining self-consistency with self-evaluation. Lastly, we showcase a practical application of our system: selecting and cascading open-source models and ChatGPT to optimize correctness given a limited API budget. This research not only challenges existing notions of LLM calibration but also offers practical methodologies for improving trustworthiness in long-form generation.
- Abstract(参考訳): 大規模言語モデル(LLM)の信頼性を高めるためには、キャリブレーションが不可欠である。
しかし、現在の信頼性評価手法とキャリブレーション基準は、通常、応答の正しさのバイナリ真/偽評価に依存している。
このアプローチは、解が部分的に正しいような長文生成には適用されない。
このギャップに対処するために,LLMの応答の正しさと関連する信頼度の両方を,様々なスコアの分布として扱う統一校正フレームワークを導入する。
本フレームワークでは,LCM校正を正確に評価する3つの指標を開発し,自己整合性と自己評価に基づく2つの信頼性評価手法を提案する。
長期QAと要約タスクを含む我々の実験は、大きめのモデルが必ずしもキャリブレーションの向上を保証していないこと、キャリブレーション性能がメートル法に依存していること、そして自己整合性手法がファクトイドデータセットより優れていることを実証している。
また,微調整,関連資料の統合,温度のスケーリング,自己整合性と自己評価の併用といった手法によって校正を向上できることがわかった。
最後に,オープンソースのモデルを選択・カスケードするChatGPTと,API予算が限られているため,精度を最適化するChatGPTという,我々のシステムの実用的応用を紹介した。
本研究は, LLMキャリブレーションの既存の概念に挑戦するだけでなく, 長期化における信頼性向上のための実践的方法論も提供する。
関連論文リスト
- Graph-based Confidence Calibration for Large Language Models [22.394717844099684]
本稿では,信頼度推定モデルを構築するための新しい手法を提案する。
重み付きグラフを用いて、質問に対する大きな言語モデルの応答の一貫性を表現します。
次に、正しい応答の確率を推定するためにグラフニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2024-11-03T20:36:44Z) - Consistency Calibration: Improving Uncertainty Calibration via Consistency among Perturbed Neighbors [22.39558434131574]
モデルキャリブレーションの代替視点として一貫性の概念を導入する。
本稿では,入力間の一貫性に基づいて信頼度を調整する,一貫性(CC)と呼ばれるポストホックキャリブレーション手法を提案する。
また,ロジットレベルでの摂動は計算効率を著しく向上させることを示した。
論文 参考訳(メタデータ) (2024-10-16T06:55:02Z) - Does Alignment Tuning Really Break LLMs' Internal Confidence? [5.893124686141782]
大規模言語モデル(LLM)は目覚ましい進歩を見せているが、実際の応用には信頼性の高い校正が必要である。
本研究は, モデル, キャリブレーション指標, タスク, 信頼抽出方法の4次元にわたるLCMのキャリブレーション劣化の包括的解析を行う。
論文 参考訳(メタデータ) (2024-08-31T05:12:36Z) - Self-Consistency Boosts Calibration for Math Reasoning [69.82896431282927]
数学推論タスクの自己整合性に基づく3つのオフ・ザ・シェルフ校正手法を設計する。
p(True) や logit に基づく既存手法よりもモデルの信頼性と精度を橋渡しする。
論文 参考訳(メタデータ) (2024-03-14T20:17:10Z) - Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - On the Calibration of Large Language Models and Alignment [63.605099174744865]
信頼性キャリブレーションは、ディープモデルの信頼性を高める重要なツールである。
構築プロセス全体を通して、アライメント言語モデルの校正を体系的に検討する。
我々の研究は、人気のあるLCMが十分に校正されているか、トレーニングプロセスがモデルの校正にどのように影響するかに光を当てています。
論文 参考訳(メタデータ) (2023-11-22T08:57:55Z) - Towards Calibrated Robust Fine-Tuning of Vision-Language Models [97.19901765814431]
本研究は、視覚言語モデルにおいて、OOD精度と信頼性校正の両方を同時に改善する頑健な微調整法を提案する。
OOD分類とOOD校正誤差は2つのIDデータからなる共有上限を持つことを示す。
この知見に基づいて,最小の特異値を持つ制約付きマルチモーダルコントラスト損失を用いて微調整を行う新しいフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-03T05:41:25Z) - Modular Conformal Calibration [80.33410096908872]
回帰における再校正のためのアルゴリズムを多種多様なクラスで導入する。
このフレームワークは、任意の回帰モデルをキャリブレーションされた確率モデルに変換することを可能にする。
我々は17の回帰データセットに対するMCCの実証的研究を行った。
論文 参考訳(メタデータ) (2022-06-23T03:25:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。