論文の概要: Are Generative Models Underconfident? An Embarrassingly Simple Quality Estimation Approach
- arxiv url: http://arxiv.org/abs/2502.11115v1
- Date: Sun, 16 Feb 2025 13:12:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:12:55.556567
- Title: Are Generative Models Underconfident? An Embarrassingly Simple Quality Estimation Approach
- Title(参考訳): 生成モデルは不確実か? 恥ずかしいほど単純な品質評価アプローチ
- Authors: Tu Anh Dinh, Jan Niehues,
- Abstract要約: 品質推定(QE)は、真理参照が得られない場合のモデル出力の品質を推定する。
複数の実行可能な出力オプションが存在する場合にモデルの信頼性を高めるDMP(Dominant Mass Probability)を提案する。
DMPはピアソンの地中品質との相関を平均+0.208で改善する。
- 参考スコア(独自算出の注目度): 16.190746208019743
- License:
- Abstract: Quality Estimation (QE) is estimating the quality of model output when the ground truth reference is not available. Looking at model uncertainty from its own output probabilities is the most trivial and low-effort way to estimate the output quality. However, for generative model, output probabilities might not be the best quality estimator. At an output step, there can be multiple correct options, making the probability distribution spread out more. Thus, lower token probability does not necessarily mean lower output quality. In other words, the model can be considered underconfident. In this paper, we propose a QE approach called Dominant Mass Probability (DMP}, that boosts the model confidence in cases where there are multiple viable output options. We show that, with no increase in complexity, DMP is notably better than sequence probability when estimating the quality of different models (Whisper, Llama, etc.) on different tasks (translation, summarization, etc.). Compared to sequence probability, DMP achieves on average +0.208 improvement in Pearson correlation to ground-truth quality.
- Abstract(参考訳): 品質推定(QE)は、真理参照が得られない場合のモデル出力の品質を推定する。
自己の出力確率からモデルの不確実性を考えることは、出力品質を見積もる最も自明で低便な方法である。
しかし、生成モデルでは、出力確率は最高の品質推定器ではないかもしれない。
出力ステップでは、複数の正しいオプションがあり、確率分布がもっと広がる。
したがって、低いトークン確率は必ずしも低い出力品質を意味するとは限らない。
言い換えれば、このモデルは信頼できないものと見なすことができる。
本稿では、複数の実行可能な出力オプションが存在する場合のモデル信頼性を高めるために、DMP(Dominant Mass Probability)と呼ばれるQEアプローチを提案する。
複雑性が増すことなく、DMPは異なるタスク(翻訳、要約など)で異なるモデルの品質(Whisper、Llamaなど)を推定する際のシーケンス確率よりも顕著に優れていることを示す。
シークエンス確率と比較すると、DMPはピアソンと接地木質の相関において平均+0.208の改善を達成している。
関連論文リスト
- Estimating the Probabilities of Rare Outputs in Language Models [8.585890569162267]
小型変圧器言語モデルからのargmaxサンプリングの文脈における低確率推定について検討した。
その結果、重要サンプリングはアクティベーション外挿より優れるが、どちらもナイーブサンプリングより優れていることがわかった。
低確率推定のための新しい手法は、最悪の場合の性能についてより強力な保証を提供するために必要である、と我々は主張する。
論文 参考訳(メタデータ) (2024-10-17T04:31:18Z) - What Are the Odds? Improving the foundations of Statistical Model Checking [3.789219860006095]
マルコフ決定プロセス(MDP)は不確実性の下での意思決定の基本的なモデルである。
従来の検証アルゴリズムは、MDPの振る舞いを管理する確率の正確な知識を前提としている。
我々はMDPの知識を活用する専門的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-08T11:47:46Z) - Self-Consistency of Large Language Models under Ambiguity [4.141513298907867]
本研究は,不特定の場合の自己整合性評価ベンチマークを示す。
あいまいな整数列補完タスクを用いて,OpenAIモデルスイート上で一連の動作実験を行う。
平均一貫性は67%から82%の範囲であり、モデルの一貫性がランダムであれば予測されるよりもはるかに高い。
論文 参考訳(メタデータ) (2023-10-20T11:57:56Z) - Convergence guarantee for consistency models [9.893455771918793]
本稿では,新しい一段階生成モデルであるCM(Consistency Models)の収束保証について述べる。
スコアマッチングエラー、一貫性エラー、データ分布の滑らかさに関する基本的な前提の下で、CMは1ステップで任意の現実的なデータ分布から、小さな$W$エラーで効率的にサンプリングすることができる。
論文 参考訳(メタデータ) (2023-08-22T13:57:35Z) - Tailoring Language Generation Models under Total Variation Distance [55.89964205594829]
ニューラルネットワーク生成の標準パラダイムは、最適化方法として最大推定(MLE)を採用する。
言語生成に適用するための実践的境界を開発する。
本稿では,TVD推定のトレードオフのバランスをとるためのTaiLr の目標について紹介する。
論文 参考訳(メタデータ) (2023-02-26T16:32:52Z) - Probabilistic Kolmogorov-Arnold Network [1.4732811715354455]
本稿では,アレータティック不確実性の場合に出力の確率分布を推定する手法を提案する。
提案手法は, 出力の入力依存確率分布と, 入力による分布型の変化を対象とする。
本手法は任意の回帰モデルに適用できるが, 計算効率のよいモデルの構築につながるため,kansと組み合わせる。
論文 参考訳(メタデータ) (2021-04-04T23:49:15Z) - SUMO: Unbiased Estimation of Log Marginal Probability for Latent
Variable Models [80.22609163316459]
無限級数のランダム化トランケーションに基づく潜在変数モデルに対して、ログ境界確率の非バイアス推定器とその勾配を導入する。
推定器を用いてトレーニングしたモデルは、同じ平均計算コストに対して、標準的な重要度サンプリングに基づくアプローチよりも優れたテストセット確率を与えることを示す。
論文 参考訳(メタデータ) (2020-04-01T11:49:30Z) - Decision-Making with Auto-Encoding Variational Bayes [71.44735417472043]
変分分布とは異なる後部近似を用いて意思決定を行うことが示唆された。
これらの理論的な結果から,最適モデルに関するいくつかの近似的提案を学習することを提案する。
おもちゃの例に加えて,単細胞RNAシークエンシングのケーススタディも紹介する。
論文 参考訳(メタデータ) (2020-02-17T19:23:36Z) - Distributionally Robust Bayesian Quadrature Optimization [60.383252534861136]
確率分布が未知な分布の不確実性の下でBQOについて検討する。
標準的なBQOアプローチは、固定されたサンプル集合が与えられたときの真の期待目標のモンテカルロ推定を最大化する。
この目的のために,新しい後方サンプリングに基づくアルゴリズム,すなわち分布的に堅牢なBQO(DRBQO)を提案する。
論文 参考訳(メタデータ) (2020-01-19T12:00:33Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。