論文の概要: Full-ECE: A Metric For Token-level Calibration on Large Language Models
- arxiv url: http://arxiv.org/abs/2406.11345v1
- Date: Mon, 17 Jun 2024 09:07:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 15:31:23.257750
- Title: Full-ECE: A Metric For Token-level Calibration on Large Language Models
- Title(参考訳): Full-ECE: 大規模言語モデルのトークンレベルの校正基準
- Authors: Han Liu, Yupeng Zhang, Bingning Wang, Weipeng Chen, Xiaolin Hu,
- Abstract要約: 大きな言語モデル(LLM)は強力なツールとして登場し、言語タスクにおける例外的なパフォーマンスを示している。
expected Error (ECE) やclasswise-ECE (cw-ECE) のような従来の校正基準は、その複雑さのためにLLMには不十分である。
フルキャリブレーションと呼ばれる新しいキャリブレーションの概念を提案し,それに対応する計量であるFull-ECEを導入する。
- 参考スコア(独自算出の注目度): 24.684907524923936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Neural Networks (DNNs) excel in various domains but face challenges in providing accurate uncertainty estimates, which are crucial for high-stakes applications. Large Language Models (LLMs) have recently emerged as powerful tools, demonstrating exceptional performance in language tasks. However, traditional calibration metrics such as Expected Calibration Error (ECE) and classwise-ECE (cw-ECE) are inadequate for LLMs due to their vast vocabularies, data complexity, and distributional focus. To address this, we propose a novel calibration concept called full calibration and introduce its corresponding metric, Full-ECE. Full-ECE evaluates the entire predicted probability distribution, offering a more accurate and robust measure of calibration for LLMs.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、さまざまな領域で優れているが、高精度な不確実性推定を提供することの難しさに直面している。
大規模言語モデル(LLM)は、最近強力なツールとして登場し、言語タスクにおける例外的なパフォーマンスを示している。
しかしながら、予測校正誤差(ECE)やクラスワイドECE(cw-ECE)といった従来の校正基準は、その膨大な語彙、データの複雑さ、分散的な焦点のためにLLMには不十分である。
そこで本研究では, フルキャリブレーションと呼ばれる新しいキャリブレーションの概念を提案し, 対応する計量であるFull-ECEを提案する。
Full-ECEは予測確率分布全体を評価し、LLMのキャリブレーションをより正確かつ堅牢に測定する。
関連論文リスト
- LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - Thermometer: Towards Universal Calibration for Large Language Models [22.03852781949075]
大規模言語モデル(LLM)に適したキャリブレーション手法であるOMETERを提案する。
OMETERは、複数のタスクから与えられたデータに基づいて補助モデルを学び、LLMを校正する。
計算効率が高く、LLMの精度を保ち、新しいタスクに対してより良い校正された応答を生成する。
論文 参考訳(メタデータ) (2024-02-20T04:13:48Z) - Calibrating Long-form Generations from Large Language Models [34.72041258464477]
大きな言語モデル(LLM)の信頼性スコアは、その応答が正しいという実際の可能性と一致すべきである。
現在の信頼性評価手法とキャリブレーション基準は、応答の正しさを2値の真/偽評価に頼っている。
本稿では,LLMの応答の正しさと関連する信頼度の両方を,様々なスコアの分布として扱う統一校正フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-09T17:00:32Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Estimating Large Language Model Capabilities without Labeled Test Data [51.428562302037534]
大規模言語モデル(LLM)は、ほんの数例からICL(In-context Learning)を実行するという印象的な能力を持っている。
ICLの精度推定タスクを提案し、新しいタスクで文脈内学習を行う場合のLLMの精度を予測する。
論文 参考訳(メタデータ) (2023-05-24T06:55:09Z) - Variable-Based Calibration for Machine Learning Classifiers [11.9995808096481]
モデルのキャリブレーション特性を特徴付けるために,変数ベースのキャリブレーションの概念を導入する。
ほぼ完全なキャリブレーション誤差を持つモデルでは,データの特徴の関数としてかなりの誤校正が期待できることがわかった。
論文 参考訳(メタデータ) (2022-09-30T00:49:31Z) - What is Your Metric Telling You? Evaluating Classifier Calibration under
Context-Specific Definitions of Reliability [6.510061176722249]
我々は、キャリブレーション誤差を正確に測定する、より表現力のあるメトリクスを開発する必要があると論じる。
信頼性の異なる定義の下でキャリブレーション誤差を測定するために,期待誤差(ECE)の一般化を用いる。
1) 予測クラスのみに焦点をあてたECEの定義は,信頼性の実際的有用な定義の選択の下でキャリブレーション誤差を正確に測定することができず,2) 多くの一般的なキャリブレーション手法は,ECEメトリクス全体でキャリブレーション性能を均一に改善することができない。
論文 参考訳(メタデータ) (2022-05-23T16:45:02Z) - Knowledge Distillation for Quality Estimation [79.51452598302934]
QE(Quality Estimation)は、参照翻訳のない機械翻訳の品質を自動的に予測するタスクである。
QEの最近の成功は、非常に大きなモデルが印象的な結果をもたらす多言語事前学習表現の使用に起因している。
提案手法は, データ拡張と組み合わせて, 8倍のパラメータを持つ蒸留前学習表現と競合する軽量QEモデルをもたらすことを示す。
論文 参考訳(メタデータ) (2021-07-01T12:36:21Z) - Localized Calibration: Metrics and Recalibration [133.07044916594361]
完全大域キャリブレーションと完全個別化キャリブレーションのギャップにまたがる細粒度キャリブレーション指標を提案する。
次に,局所再校正法であるLoReを導入し,既存の校正法よりもLCEを改善する。
論文 参考訳(メタデータ) (2021-02-22T07:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。