論文の概要: Calibrating Large Language Models with Sample Consistency
- arxiv url: http://arxiv.org/abs/2402.13904v1
- Date: Wed, 21 Feb 2024 16:15:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 14:43:19.624790
- Title: Calibrating Large Language Models with Sample Consistency
- Title(参考訳): サンプル一貫性による大規模言語モデルの校正
- Authors: Qing Lyu, Kumar Shridhar, Chaitanya Malaviya, Li Zhang, Yanai Elazar,
Niket Tandon, Marianna Apidianaki, Mrinmaya Sachan, Chris Callison-Burch
- Abstract要約: 本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
- 参考スコア(独自算出の注目度): 76.23956851098598
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Accurately gauging the confidence level of Large Language Models' (LLMs)
predictions is pivotal for their reliable application. However, LLMs are often
uncalibrated inherently and elude conventional calibration techniques due to
their proprietary nature and massive scale. In this work, we explore the
potential of deriving confidence from the distribution of multiple randomly
sampled model generations, via three measures of consistency. We perform an
extensive evaluation across various open and closed-source models on nine
reasoning datasets. Results show that consistency-based calibration methods
outperform existing post-hoc approaches. Meanwhile, we find that factors such
as intermediate explanations, model scaling, and larger sample sizes enhance
calibration, while instruction-tuning makes calibration more difficult.
Moreover, confidence scores obtained from consistency have the potential to
enhance model performance. Finally, we offer practical guidance on choosing
suitable consistency metrics for calibration, tailored to the characteristics
of various LMs.
- Abstract(参考訳): 大規模言語モデル(llms)の予測の信頼性レベルを正確に測定することは、信頼性の高いアプリケーションにとって重要である。
しかし、LSMは本質的には校正されていないことが多く、その独自性や大規模性から従来の校正技法を欠いている。
本研究では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,3つの整合性尺度を用いて検討する。
9つの推論データセット上で,さまざまなオープンソースモデルとクローズドソースモデルにわたる広範な評価を行う。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック法よりも優れていることがわかった。
一方,中間的説明やモデルスケーリング,より大きなサンプルサイズなどの要因は校正を促進させる一方,命令チューニングは校正を困難にする。
さらに、一貫性から得られる信頼スコアは、モデル性能を向上させる可能性がある。
最後に,種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提案する。
関連論文リスト
- Selective Learning: Towards Robust Calibration with Dynamic
Regularization [93.2503677723367]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - Calibrating Long-form Generations from Large Language Models [37.2496541665881]
大きな言語モデル(LLM)の信頼性スコアは、その応答が正しいという実際の可能性と一致すべきである。
現在の信頼性評価手法とキャリブレーション基準は、応答の正しさを2値の真/偽評価に頼っている。
本稿では,LLMの応答の正しさと関連する信頼度の両方を,様々なスコアの分布として扱う統一校正フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-09T17:00:32Z) - Combining Confidence Elicitation and Sample-based Methods for
Uncertainty Quantification in Misinformation Mitigation [6.929834518749884]
誤情報緩和に対処する主要な候補として、大規模言語モデルが登場している。
既存のアプローチは幻覚や過信的な予測に苦しむ。
本稿では, 直接信頼誘導法とサンプルベース整合性法の両方を活用する不確実性定量化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-13T16:36:58Z) - On the Calibration of Large Language Models and Alignment [63.605099174744865]
信頼性キャリブレーションは、ディープモデルの信頼性を高める重要なツールである。
構築プロセス全体を通して、アライメント言語モデルの校正を体系的に検討する。
我々の研究は、人気のあるLCMが十分に校正されているか、トレーニングプロセスがモデルの校正にどのように影響するかに光を当てています。
論文 参考訳(メタデータ) (2023-11-22T08:57:55Z) - Calibration in Deep Learning: A Survey of the State-of-the-Art [7.6087138685470945]
ディープニューラルネットワークのキャリブレーションは、安全クリティカルなアプリケーションにおいて、信頼性が高く堅牢なAIシステムを構築する上で重要な役割を果たす。
近年の研究では、予測能力の高い現代のニューラルネットワークは、キャリブレーションが不十分であり、信頼性の低いモデル予測を生成することが示されている。
論文 参考訳(メタデータ) (2023-08-02T15:28:10Z) - Calibrating Multimodal Learning [94.65232214643436]
本稿では,従来の手法の予測信頼性を校正するために,新たな正規化手法であるCML(Callibrating Multimodal Learning)正則化を提案する。
この技術は、既存のモデルによって柔軟に装備され、信頼性校正、分類精度、モデルロバスト性の観点から性能を向上させることができる。
論文 参考訳(メタデータ) (2023-06-02T04:29:57Z) - On Calibrating Semantic Segmentation Models: Analyses and An Algorithm [51.85289816613351]
セマンティックセグメンテーションキャリブレーションの問題について検討する。
モデルキャパシティ、作物サイズ、マルチスケールテスト、予測精度はキャリブレーションに影響を及ぼす。
我々は、単純で統一的で効果的なアプローチ、すなわち選択的スケーリングを提案する。
論文 参考訳(メタデータ) (2022-12-22T22:05:16Z) - Calibrate: Interactive Analysis of Probabilistic Model Output [5.444048397001003]
従来の手法の欠点に耐性のある,インタラクティブな信頼性図であるCalibrateを提示する。
実世界のデータと合成データの両方のユースケースを通じて、Calibrateの実用性を実証する。
論文 参考訳(メタデータ) (2022-07-27T20:01:27Z) - On the Calibration of Pre-trained Language Models using Mixup Guided by
Area Under the Margin and Saliency [47.90235939359225]
モデルキャリブレーションをさらに改善する事前学習型言語モデルのための新しい混合戦略を提案する。
本手法は,ドメイン内およびドメイン外テストサンプルの強いベースラインと比較して,最小のキャリブレーション誤差を実現する。
論文 参考訳(メタデータ) (2022-03-14T23:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。