論文の概要: CoCoA: A Generalized Approach to Uncertainty Quantification by Integrating Confidence and Consistency of LLM Outputs
- arxiv url: http://arxiv.org/abs/2502.04964v1
- Date: Fri, 07 Feb 2025 14:30:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:56:52.375380
- Title: CoCoA: A Generalized Approach to Uncertainty Quantification by Integrating Confidence and Consistency of LLM Outputs
- Title(参考訳): CoCoA: LLM出力の信頼性と一貫性の統合による不確実性定量化への一般化されたアプローチ
- Authors: Roman Vashurin, Maiya Goloburda, Preslav Nakov, Artem Shelmanov, Maxim Panov,
- Abstract要約: 大規模言語モデル(LLM)のための不確実性定量化(UQ)手法は、様々なアプローチを含んでいる。
本稿では,モデル信頼度と出力整合性を新たに合成する方法を提案する。
- 参考スコア(独自算出の注目度): 35.74755307680801
- License:
- Abstract: Uncertainty quantification (UQ) methods for Large Language Models (LLMs) encompasses a variety of approaches, with two major types being particularly prominent: information-based, which focus on model confidence expressed as token probabilities, and consistency-based, which assess the semantic relationship between multiple outputs generated using repeated sampling. Several recent methods have combined these two approaches and shown impressive performance in various applications. However, they sometimes fail to outperform much simpler baseline methods. Our investigation reveals distinctive characteristics of LLMs as probabilistic models, which help to explain why these UQ methods underperform in certain tasks. Based on these findings, we propose a new way of synthesizing model confidence and output consistency that leads to a family of efficient and robust UQ methods. We evaluate our approach across a variety of tasks such as question answering, abstractive summarization, and machine translation, demonstrating sizable improvements over state-of-the-art UQ approaches.
- Abstract(参考訳): 大規模言語モデル(LLM)のための不確実性定量化(UQ)手法は、トークン確率として表現されるモデルの信頼性に焦点を当てた情報ベースと、繰り返しサンプリングによって生成された複数の出力間の意味的関係を評価する一貫性ベースの2つの主要なタイプを含む、様々なアプローチを含んでいる。
いくつかの最近の手法はこれらの2つのアプローチを組み合わせており、様々なアプリケーションで顕著な性能を示している。
しかし、多くの場合、より単純なベースラインメソッドを上回りません。
本研究は,LLMの特性を確率論的モデルとして明らかにし,これらのUQ手法が特定のタスクで不適当である理由を説明するのに役立つ。
これらの知見に基づいて,モデル信頼度と出力整合性を新たに合成する方法を提案し,より効率的でロバストなUQ手法のファミリを導出する。
我々は,質問応答,抽象的な要約,機械翻訳など,さまざまなタスクにまたがるアプローチを評価し,最先端のUQアプローチに対する大幅な改善を示す。
関連論文リスト
- Token-Level Density-Based Uncertainty Quantification Methods for Eliciting Truthfulness of Large Language Models [76.17975723711886]
不確実性定量化(英: Uncertainty Quantification、UQ)は、大規模言語モデル(LLM)から真正性を求めるための顕著なアプローチである。
本研究では,テキスト生成のために,分類タスクのUQ技術であるMahalanobis Distance (MD)を適用した。
提案手法は,複数レイヤのLCMからトークン埋め込みを抽出し,各トークンのMDスコアを計算し,これらの特徴を訓練した線形回帰を用いてロバストな不確実性スコアを提供する。
論文 参考訳(メタデータ) (2025-02-20T10:25:13Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - Provably Better Explanations with Optimized Aggregation of Feature Attributions [36.22433695108499]
ポストホックな説明に特徴属性を使用することは、不透明な機械学習モデルの予測を理解し検証する一般的なプラクティスである。
本稿では,特徴属性の最適凸結合を導出する新たな手法を提案する。
論文 参考訳(メタデータ) (2024-06-07T17:03:43Z) - Combining Confidence Elicitation and Sample-based Methods for
Uncertainty Quantification in Misinformation Mitigation [6.929834518749884]
誤情報緩和に対処する主要な候補として、大規模言語モデルが登場している。
既存のアプローチは幻覚や過信的な予測に苦しむ。
本稿では, 直接信頼誘導法とサンプルベース整合性法の両方を活用する不確実性定量化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-13T16:36:58Z) - Faithful Explanations of Black-box NLP Models Using LLM-generated
Counterfactuals [67.64770842323966]
NLPシステムの予測に関する因果的説明は、安全性を確保し、信頼を確立するために不可欠である。
既存の手法は、しばしばモデル予測を効果的または効率的に説明できない。
本稿では, 対物近似(CF)の2つの手法を提案する。
論文 参考訳(メタデータ) (2023-10-01T07:31:04Z) - Self-Polish: Enhance Reasoning in Large Language Models via Problem Refinement [50.62461749446111]
Self-Polish(SP)は、与えられた問題を徐々に洗練し、より理解しやすく解けるように誘導することによって、モデルの推論を促進する新しい方法である。
SPは、CoTのような答え/推論サイドの他のすべてのプロンプトメソッドであり、最先端の技術とのシームレスな統合を可能にし、さらなる改善を可能にします。
論文 参考訳(メタデータ) (2023-05-23T19:58:30Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。