論文の概要: GRACE: A Granular Benchmark for Evaluating Model Calibration against Human Calibration
- arxiv url: http://arxiv.org/abs/2502.19684v1
- Date: Thu, 27 Feb 2025 01:51:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:58:19.178331
- Title: GRACE: A Granular Benchmark for Evaluating Model Calibration against Human Calibration
- Title(参考訳): GRACE:人間のキャリブレーションに対するモデルキャリブレーション評価のためのグラニュラーベンチマーク
- Authors: Yoo Yeon Sung, Eve Fleisig, Yu Hou, Ishan Upadhyay, Jordan Lee Boyd-Graber,
- Abstract要約: 本稿では,人間のキャリブレーションとの比較を取り入れた言語モデルキャリブレーションのベンチマークであるGRACEを紹介する。
GRACEは質問と回答のペアで構成されており、各質問には徐々に容易になる一連の手がかりが含まれている。
私たちは、人間とモデルのチームのタイミング、正確性、信頼性に関する1,749のデータポイントを集めるために、人間対モデルのライブコンペティションを開催しています。
- 参考スコア(独自算出の注目度): 3.1388030939967844
- License:
- Abstract: Language models are often miscalibrated, leading to confidently incorrect answers. We introduce GRACE, a benchmark for language model calibration that incorporates comparison with human calibration. GRACE consists of question-answer pairs, in which each question contains a series of clues that gradually become easier, all leading to the same answer; models must answer correctly as early as possible as the clues are revealed. This setting permits granular measurement of model calibration based on how early, accurately, and confidently a model answers. After collecting these questions, we host live human vs. model competitions to gather 1,749 data points on human and model teams' timing, accuracy, and confidence. We propose a metric, CalScore, that uses GRACE to analyze model calibration errors and identify types of model miscalibration that differ from human behavior. We find that although humans are less accurate than models, humans are generally better calibrated. Since state-of-the-art models struggle on GRACE, it effectively evaluates progress on improving model calibration.
- Abstract(参考訳): 言語モデルはしばしば誤解され、自信を持って誤った答えをもたらす。
本稿では,人間のキャリブレーションとの比較を取り入れた言語モデルキャリブレーションのベンチマークであるGRACEを紹介する。
GRACEは質問と回答のペアで構成されており、各質問には、徐々に容易になり、すべて同じ答えにつながる一連の手がかりが含まれている。
この設定は、モデルがどれだけ早く、正確に、自信を持って答えたかに基づいて、モデルキャリブレーションのきめ細かい測定を可能にする。
これらの質問を集めた後、私たちは、人間とモデルのチームのタイミング、正確性、信頼性に関する1,749のデータポイントを集めるために、人間対モデルの競技会を開催します。
本稿では、GRACEを用いてモデル校正誤差を分析し、人間の行動と異なるモデル誤校正のタイプを特定するメトリクスCalScoreを提案する。
人間はモデルより精度が低いが、人間は概してキャリブレーションが良い。
GRACEでは最先端のモデルが苦戦しているため、モデルキャリブレーションの改善の進捗を効果的に評価する。
関連論文リスト
- Reassessing How to Compare and Improve the Calibration of Machine Learning Models [7.183341902583164]
結果の予測確率がモデル予測に基づいてその結果の観測周波数と一致した場合、機械学習モデルを校正する。
キャリブレーションと予測の指標が追加の一般化の指標を伴わない限り、最先端のように見えるような簡単な再校正手法が存在することを示す。
論文 参考訳(メタデータ) (2024-06-06T13:33:45Z) - Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - Calibration in Deep Learning: A Survey of the State-of-the-Art [7.6087138685470945]
ディープニューラルネットワークのキャリブレーションは、安全クリティカルなアプリケーションにおいて、信頼性が高く堅牢なAIシステムを構築する上で重要な役割を果たす。
近年の研究では、予測能力の高い現代のニューラルネットワークは、キャリブレーションが不十分であり、信頼性の低いモデル予測を生成することが示されている。
論文 参考訳(メタデータ) (2023-08-02T15:28:10Z) - On Calibrating Semantic Segmentation Models: Analyses and An Algorithm [51.85289816613351]
セマンティックセグメンテーションキャリブレーションの問題について検討する。
モデルキャパシティ、作物サイズ、マルチスケールテスト、予測精度はキャリブレーションに影響を及ぼす。
我々は、単純で統一的で効果的なアプローチ、すなわち選択的スケーリングを提案する。
論文 参考訳(メタデータ) (2022-12-22T22:05:16Z) - Calibration Meets Explanation: A Simple and Effective Approach for Model
Confidence Estimates [21.017890579840145]
本稿では,モデル説明を活用するCMEという手法を提案し,非帰納的属性に対するモデルの信頼性を低下させる。
我々は,2つの人気のある事前学習言語モデルを用いて,6つのデータセットに関する広範な実験を行った。
以上の結果から,モデル説明が後部推定の校正に有効であることが示唆された。
論文 参考訳(メタデータ) (2022-11-06T06:17:21Z) - Revisiting Calibration for Question Answering [16.54743762235555]
従来のキャリブレーション評価はモデル信頼性の有用性を反映していないと論じる。
モデルが誤った予測に低信頼を割り当て、正しい予測に高信頼を割り当てているかどうかをよりよく把握する新しい校正基準であるMacroCEを提案する。
論文 参考訳(メタデータ) (2022-05-25T05:49:56Z) - T-Cal: An optimal test for the calibration of predictive models [49.11538724574202]
有限検証データセットを用いた予測モデルの誤校正を仮説検証問題として検討する。
誤校正の検出は、クラスの条件付き確率が予測の十分滑らかな関数である場合にのみ可能である。
我々は、$ell$-Expected Error(ECE)のデバイアスドプラグイン推定器に基づくキャリブレーションのためのミニマックステストであるT-Calを提案する。
論文 参考訳(メタデータ) (2022-03-03T16:58:54Z) - Knowing More About Questions Can Help: Improving Calibration in Question
Answering [19.869498599986006]
質問応答のキャリブレーションについて検討し、各質問に対する解答が正しく予測されるかどうかを推定する。
モデルの信頼性スコアに大きく依存する以前の作業とは異なり、キャリブレータには入力例に関する情報が組み込まれています。
我々のシンプルで効率的なキャリブレータは、多くのタスクやモデルアーキテクチャに容易に適応でき、全ての設定で堅牢なゲインを示す。
論文 参考訳(メタデータ) (2021-06-02T22:22:52Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z) - Are Visual Explanations Useful? A Case Study in Model-in-the-Loop
Prediction [49.254162397086006]
画像に基づく年齢予測課題における視覚的満足度に基づく説明について検討する。
モデル予測の提示により,人間の精度が向上することが判明した。
しかし、様々な種類の説明は、人間の正確さやモデルの信頼を著しく変えることができない。
論文 参考訳(メタデータ) (2020-07-23T20:39:40Z) - Uncertainty Quantification and Deep Ensembles [79.4957965474334]
ディープアンサンブルが必ずしもキャリブレーション特性の改善につながるとは限らないことを示す。
そこで本研究では,混成正規化などの現代的な手法と併用して標準アンサンブル法を用いることで,キャリブレーションの少ないモデルが得られることを示す。
このテキストは、データが不足しているときにディープラーニングを活用するために、最も単純で一般的な3つのアプローチの相互作用を調べる。
論文 参考訳(メタデータ) (2020-07-17T07:32:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。