Fugu-MT 論文翻訳(概要): $β$-calibration of Language Model Confidence Scores for Generative QA

論文の概要: $β$-calibration of Language Model Confidence Scores for Generative QA

arxiv url: http://arxiv.org/abs/2410.06615v1
Date: Wed, 9 Oct 2024 07:12:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-01 04:39:35.518218
Title: $β$-calibration of Language Model Confidence Scores for Generative QA
Title（参考訳）: 生成QAのための言語モデル信頼スコアの$β$-calibration
Authors: Putra Manggala, Atalanti Mastakouri, Elke Kirschbaum, Shiva Prasad Kasiviswanathan, Aaditya Ramdas,
Abstract要約: 既存のキャリブレーション手法は、信頼性スコアが解答の正しさを示す平均的な指標であることを保証することを目的としている。しかし、この標準(平均ケース)のキャリブレーションの概念は、生成的QAにおける意思決定の解釈が困難である。異なる問合せグループ間でキャリブレーションを保留する$beta$-calibrationを導入する。
参考スコア（独自算出の注目度）: 31.04440851437498
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To use generative question-and-answering (QA) systems for decision-making and in any critical application, these systems need to provide well-calibrated confidence scores that reflect the correctness of their answers. Existing calibration methods aim to ensure that the confidence score is on average indicative of the likelihood that the answer is correct. We argue, however, that this standard (average-case) notion of calibration is difficult to interpret for decision-making in generative QA. To address this, we generalize the standard notion of average calibration and introduce $\beta$-calibration, which ensures calibration holds across different question-and-answer groups. We then propose discretized posthoc calibration schemes for achieving $\beta$-calibration.
Abstract（参考訳）: 意思決定にQA(generative question-and-Awering)システムを使うには、これらのシステムは、その答えの正しさを反映した、よく校正された信頼スコアを提供する必要がある。既存のキャリブレーション手法は、信頼性スコアが解答の正しさを示す平均的な指標であることを保証することを目的としている。しかし、この標準(平均ケース)のキャリブレーションの概念は、生成的QAにおける意思決定の解釈が困難である。これを解決するために、平均校正の標準概念を一般化し、異なる問合せ群間で校正が保たれるような$\beta$-calibrationを導入する。そこで我々は、$\beta$-calibrationを達成するための離散化ポストホック校正法を提案する。

関連論文リスト

COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。 COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文参考訳（メタデータ） (2025-06-25T07:04:49Z)
Graph-based Confidence Calibration for Large Language Models [22.394717844099684]
本稿では,信頼度推定モデルを構築するための新しい手法を提案する。重み付きグラフを用いて、質問に対する大きな言語モデルの応答の一貫性を表現します。次に、正しい応答の確率を推定するためにグラフニューラルネットワークを訓練する。
論文参考訳（メタデータ） (2024-11-03T20:36:44Z)
Optimizing Estimators of Squared Calibration Errors in Classification [2.3020018305241337]
本稿では,2乗キャリブレーション誤差の推定器の比較と最適化を可能にする平均二乗誤差に基づくリスクを提案する。キャリブレーション誤差を推定する際のトレーニングバリデーションテストパイプラインを提案する。
論文参考訳（メタデータ） (2024-10-09T15:58:06Z)
Calibrating Long-form Generations from Large Language Models [34.72041258464477]
大きな言語モデル(LLM)の信頼性スコアは、その応答が正しいという実際の可能性と一致すべきである。現在の信頼性評価手法とキャリブレーション基準は、応答の正しさを2値の真/偽評価に頼っている。本稿では,LLMの応答の正しさと関連する信頼度の両方を,様々なスコアの分布として扱う統一校正フレームワークを提案する。
論文参考訳（メタデータ） (2024-02-09T17:00:32Z)
Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。我々はLSMに答えを自己評価するように指示する。自己評価に基づくスコアリング手法をベンチマークする。
論文参考訳（メタデータ） (2023-12-14T19:09:22Z)
Uncertainty-aware Language Modeling for Selective Question Answering [107.47864420630923]
本稿では,不確実性を考慮したLLMを生成するLLM変換手法を提案する。我々のアプローチはモデルとデータに依存しず、計算効率が高く、外部モデルやシステムに依存しない。
論文参考訳（メタデータ） (2023-11-26T22:47:54Z)
Calibration by Distribution Matching: Trainable Kernel Calibration Metrics [56.629245030893685]
カーネルベースのキャリブレーションメトリクスを導入し、分類と回帰の両方で一般的なキャリブレーションの形式を統一・一般化する。これらの指標は、異なるサンプル推定を許容しており、キャリブレーションの目的を経験的リスク最小化に組み込むのが容易である。決定タスクにキャリブレーションメトリクスを調整し、正確な損失推定を行ない、後悔しない決定を行うための直感的なメカニズムを提供する。
論文参考訳（メタデータ） (2023-10-31T06:19:40Z)
Calibration in Machine Learning Uncertainty Quantification: beyond consistency to target adaptivity [0.0]
この記事では、一貫性と適応性は相補的な検証対象であり、一貫性が良い適応性を意味するものではないことを示す。適応型バリデーション手法を提案し, 代表的な例を示す。
論文参考訳（メタデータ） (2023-09-12T13:58:04Z)
Calibrating AI Models for Wireless Communications via Conformal Prediction [55.47458839587949]
コンフォーマル予測は,通信システムにおけるAIの設計に初めて適用される。本稿では,形式的校正保証付き決定を生成するAIモデルを得るための一般フレームワークとしての共形予測の適用について検討する。
論文参考訳（メタデータ） (2022-12-15T12:52:23Z)
Conformal Methods for Quantifying Uncertainty in Spatiotemporal Data: A Survey [0.0]
高リスク環境では、モデルが自身の信頼を反映し、失敗を避けるために不確実性を生み出すことが重要である。本稿では, ディープラーニングにおける不確実性(UQ)に関する最近の研究, 特に, 数学的, 広範に適用可能な分布自由な等角予測法について調査する。
論文参考訳（メタデータ） (2022-09-08T06:08:48Z)
Benchmarking Answer Verification Methods for Question Answering-Based Summarization Evaluation Metrics [74.28810048824519]
質問応答に基づく要約評価メトリクスは、QAモデルの予測が正しいかどうかを自動的に判断する必要がある。筆者らは,現在QAベースのメトリクスで使用されている語彙的回答検証手法と,より洗練された2つのテキスト比較手法をベンチマークした。
論文参考訳（メタデータ） (2022-04-21T15:43:45Z)
Estimating Expected Calibration Errors [1.52292571922932]
確率論的予測の不確実性は、モデルが人間の意思決定をサポートするために使用される場合、重要な問題である。ほとんどのモデルは本質的に十分に校正されていないため、決定スコアは後続確率と一致しない。我々は、$ECE$推定器の品質を定量化するための実証的な手順を構築し、それを使用して、異なる設定で実際にどの推定器を使用するべきかを決定する。
論文参考訳（メタデータ） (2021-09-08T08:00:23Z)
Calibrating Predictions to Decisions: A Novel Approach to Multi-Class Calibration [118.26862029820447]
我々は、下流の意思決定者に対して、予測された分布と真の分布を区別不能にする必要がある新しい概念、即時校正を導入します。決定キャリブレーションは、皮膚病変の判定と、現代のニューラルネットワークを用いたImageNet分類を改善する。
論文参考訳（メタデータ） (2021-07-12T20:17:28Z)
Distribution-free uncertainty quantification for classification under label shift [105.27463615756733]
2つの経路による分類問題に対する不確実性定量化(UQ)に焦点を当てる。まず、ラベルシフトはカバレッジとキャリブレーションの低下を示すことでuqを損なうと論じる。これらの手法を, 理論上, 分散性のない枠組みで検討し, その優れた実用性を示す。
論文参考訳（メタデータ） (2021-03-04T20:51:03Z)
Localized Calibration: Metrics and Recalibration [133.07044916594361]
完全大域キャリブレーションと完全個別化キャリブレーションのギャップにまたがる細粒度キャリブレーション指標を提案する。次に,局所再校正法であるLoReを導入し,既存の校正法よりもLCEを改善する。
論文参考訳（メタデータ） (2021-02-22T07:22:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。