Fugu-MT 論文翻訳(概要): Multicalibration for Confidence Scoring in LLMs

論文の概要: Multicalibration for Confidence Scoring in LLMs

arxiv url: http://arxiv.org/abs/2404.04689v1
Date: Sat, 6 Apr 2024 17:33:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-09 20:00:13.100598
Title: Multicalibration for Confidence Scoring in LLMs
Title（参考訳）: LLMにおける信頼性の多重校正
Authors: Gianluca Detommaso, Martin Bertran, Riccardo Fogliato, Aaron Roth,
Abstract要約: 本稿では,大規模言語モデル(LLM)が生成する出力に対して,解釈可能かつ信頼性の高い信頼スコアを得るために,"マルチバリデーション(multicalibration)"を用いることを提案する。埋め込み空間内のクラスタリングと「自己アノテーション」という2つの手法を用いて、正しさの確率と相関するプロンプト/コンプリートペアのグルーピングを形成する方法を示す。我々は,従来の手法と比較して,キャリブレーションと精度の両方の細かな測定精度を大幅に向上させる信頼性スコアを得る方法を示す。
参考スコア（独自算出の注目度）: 6.948522445499497
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper proposes the use of "multicalibration" to yield interpretable and reliable confidence scores for outputs generated by large language models (LLMs). Multicalibration asks for calibration not just marginally, but simultaneously across various intersecting groupings of the data. We show how to form groupings for prompt/completion pairs that are correlated with the probability of correctness via two techniques: clustering within an embedding space, and "self-annotation" - querying the LLM by asking it various yes-or-no questions about the prompt. We also develop novel variants of multicalibration algorithms that offer performance improvements by reducing their tendency to overfit. Through systematic benchmarking across various question answering datasets and LLMs, we show how our techniques can yield confidence scores that provide substantial improvements in fine-grained measures of both calibration and accuracy compared to existing methods.
Abstract（参考訳）: 本稿では,大規模言語モデル (LLM) が生成する出力に対して,解釈可能かつ信頼性の高い信頼スコアを得るために "multicalibration" を用いることを提案する。マルチキャリブレーションは、余分にキャリブレーションを要求されるだけでなく、データの様々な交差グルーピングを同時に行う。組込み空間内のクラスタリングと自己アノテーション(self-annotation)という2つの手法を用いて,そのプロンプトの正しさの確率と相関するプロンプト/コンプリートペアをグループ化する方法を示す。また、過度に適合する傾向を減らし、性能改善を提供するマルチキャリブレーションアルゴリズムの新たな変種も開発している。各種質問応答データセットとLCMを体系的にベンチマークすることで,従来の手法と比較して,キャリブレーションと精度の両方の細かな測定精度を大幅に向上する信頼性スコアが得られることを示す。

関連論文リスト

SGIC: A Self-Guided Iterative Calibration Framework for RAG [45.17496149653415]
大規模言語モデル(LLM)は、頑健な文脈内推論を生かしている。ツールとして不確実性スコアを用いる新しいフレームワークを提案する。また、反復的な自己校正訓練セットを構築するための革新的なアプローチも導入する。
論文参考訳（メタデータ） (2025-06-19T09:45:13Z)
Calibrating Uncertainty Quantification of Multi-Modal LLMs using Grounding [48.92310906093414]
マルチモーダル大言語モデル(LLM)に適した不確実性定量化(UQ)の校正手法を提案する。マルチモーダルモデルのキャリブレーションを改善するために,自己整合性に加えてクロスモーダル整合性を活用する。医療質問応答(Slake)や視覚質問応答(VQAv2)といった複数のマルチモーダルタスクに対して,LLaVA-MedやLLaVAといったマルチモーダルモデルを考慮したアプローチを提案する。
論文参考訳（メタデータ） (2025-04-30T19:19:21Z)
Diversified Sampling Improves Scaling LLM inference [31.18762591875725]
DivSamplingは、候補解の多様性を高めるために設計された、斬新で多用途なサンプリング技術である。理論解析により, 微妙な仮定の下では, 種々のプロンプトから発生する応答の誤り率は, 定常プロンプトによる応答よりも有意に低いことが示された。
論文参考訳（メタデータ） (2025-02-16T07:37:58Z)
Influences on LLM Calibration: A Study of Response Agreement, Loss Functions, and Prompt Styles [4.477423478591491]
Calib-nは、信頼度推定のための補助モデルをトレーニングする新しいフレームワークである。補助的なモデルベース手法では,数発のプロンプトが最も有効であることが判明した。
論文参考訳（メタデータ） (2025-01-07T18:48:42Z)
Graph-based Confidence Calibration for Large Language Models [22.394717844099684]
本稿では,信頼度推定モデルを構築するための新しい手法を提案する。重み付きグラフを用いて、質問に対する大きな言語モデルの応答の一貫性を表現します。次に、正しい応答の確率を推定するためにグラフニューラルネットワークを訓練する。
論文参考訳（メタデータ） (2024-11-03T20:36:44Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
Dynamic Correlation Learning and Regularization for Multi-Label Confidence Calibration [60.95748658638956]
本稿では,多ラベルシナリオにおける信頼度を適切に評価することを目的としたマルチラベル信頼性タスクを提案する。既存のシングルラベルキャリブレーション手法では、セマンティックな混乱に対処するために欠かせないカテゴリ相関を考慮できない。本稿では,多粒度セマンティック相関を利用した動的相関学習と正規化アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-07-09T13:26:21Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文参考訳（メタデータ） (2024-02-21T16:15:20Z)
Calibrating Long-form Generations from Large Language Models [34.72041258464477]
大きな言語モデル(LLM)の信頼性スコアは、その応答が正しいという実際の可能性と一致すべきである。現在の信頼性評価手法とキャリブレーション基準は、応答の正しさを2値の真/偽評価に頼っている。本稿では,LLMの応答の正しさと関連する信頼度の両方を,様々なスコアの分布として扱う統一校正フレームワークを提案する。
論文参考訳（メタデータ） (2024-02-09T17:00:32Z)
Combining Confidence Elicitation and Sample-based Methods for Uncertainty Quantification in Misinformation Mitigation [6.929834518749884]
誤情報緩和に対処する主要な候補として、大規模言語モデルが登場している。既存のアプローチは幻覚や過信的な予測に苦しむ。本稿では, 直接信頼誘導法とサンプルベース整合性法の両方を活用する不確実性定量化フレームワークを提案する。
論文参考訳（メタデータ） (2024-01-13T16:36:58Z)
Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。我々はLSMに答えを自己評価するように指示する。自己評価に基づくスコアリング手法をベンチマークする。
論文参考訳（メタデータ） (2023-12-14T19:09:22Z)
Conformal Frequency Estimation using Discrete Sketched Data with Coverage for Distinct Queries [35.67445122503686]
本稿では、非常に大きな離散データセットにおいて、問合せ対象の周波数に対する信頼区間を構築するための共形推論手法を開発する。提案手法は,シミュレーションにおける既存の頻繁主義者やベイズ的な代替手法と比較して,経験的性能が向上したことを示す。
論文参考訳（メタデータ） (2022-11-09T00:05:29Z)
Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。 4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文参考訳（メタデータ） (2020-02-27T10:22:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。