論文の概要: Are Generative Models Underconfident? Better Quality Estimation with Boosted Model Probability
- arxiv url: http://arxiv.org/abs/2502.11115v2
- Date: Thu, 29 May 2025 11:33:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 15:42:33.204457
- Title: Are Generative Models Underconfident? Better Quality Estimation with Boosted Model Probability
- Title(参考訳): 生成モデルは不確実か? モデル確率の向上による品質評価の改善
- Authors: Tu Anh Dinh, Jan Niehues,
- Abstract要約: テキスト生成モデルの出力確率は不確実であることを示す。
我々はBoostedProbと呼ばれるQEアプローチを提案し、モデルの信頼性を高める。
複雑さが増すことなく、BoostedProbは、異なる設定での生モデルの確率よりも顕著に優れている。
- 参考スコア(独自算出の注目度): 16.190746208019743
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Quality Estimation (QE) is estimating quality of the model output during inference when the ground truth is not available. Deriving output quality from the models' output probability is the most trivial and low-effort way. However, we show that the output probability of text-generation models can appear underconfident. At each output step, there can be multiple correct options, making the probability distribution spread out more. Thus, lower probability does not necessarily mean lower output quality. Due to this observation, we propose a QE approach called BoostedProb, which boosts the model's confidence in cases where there are multiple viable output options. With no increase in complexity, BoostedProb is notably better than raw model probability in different settings, achieving on average +0.194 improvement in Pearson correlation to ground-truth quality. It also comes close to or outperforms more costly approaches like supervised or ensemble-based QE in certain settings.
- Abstract(参考訳): 品質推定(QE)は、基礎的真理が得られない場合の推論において、モデル出力の品質を推定する。
モデルの出力確率から出力品質を導出することは、最も自明で低益な方法である。
しかし,テキスト生成モデルの出力確率は不確実であることを示す。
各出力ステップには複数の正しいオプションがあり、確率分布がより広がる。
したがって、低い確率は必ずしも低い出力品質を意味するとは限らない。
そこで本研究では,複数の実行可能な出力オプションが存在する場合のモデルの信頼性を高める,BoostedProbというQEアプローチを提案する。
複雑さが増すことなく、BoostedProbは、異なる設定での生モデルの確率よりも顕著に優れており、Pearsonと地味品質の相関性の平均+0.194の改善を達成している。
また、特定の設定で教師付きやアンサンブルベースのQEのような、よりコストのかかるアプローチに近づいたり、より優れています。
関連論文リスト
- Solving Robust Markov Decision Processes: Generic, Reliable, Efficient [3.789219860006095]
マルコフ決定プロセス(MDP)は確率の存在下でのシーケンシャルな意思決定のための確立されたモデルである。
我々は、汎用的で信頼性があり、効率的なRMDPを解くためのフレームワークを提供する。
我々のプロトタイプ実装は、既存のツールよりも桁違いに優れている。
論文 参考訳(メタデータ) (2024-12-13T14:55:48Z) - Estimating the Probabilities of Rare Outputs in Language Models [8.585890569162267]
小型変圧器言語モデルからのargmaxサンプリングの文脈における低確率推定について検討した。
その結果、重要サンプリングはアクティベーション外挿より優れるが、どちらもナイーブサンプリングより優れていることがわかった。
低確率推定のための新しい手法は、最悪の場合の性能についてより強力な保証を提供するために必要である、と我々は主張する。
論文 参考訳(メタデータ) (2024-10-17T04:31:18Z) - A Probabilistic Perspective on Unlearning and Alignment for Large Language Models [48.96686419141881]
大規模言語モデル(LLM)における最初の形式的確率的評価フレームワークを紹介する。
モデルの出力分布に関する高い確率保証を持つ新しい指標を導出する。
私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
論文 参考訳(メタデータ) (2024-10-04T15:44:23Z) - Self-Consistency of Large Language Models under Ambiguity [4.141513298907867]
本研究は,不特定の場合の自己整合性評価ベンチマークを示す。
あいまいな整数列補完タスクを用いて,OpenAIモデルスイート上で一連の動作実験を行う。
平均一貫性は67%から82%の範囲であり、モデルの一貫性がランダムであれば予測されるよりもはるかに高い。
論文 参考訳(メタデータ) (2023-10-20T11:57:56Z) - Tailoring Language Generation Models under Total Variation Distance [55.89964205594829]
ニューラルネットワーク生成の標準パラダイムは、最適化方法として最大推定(MLE)を採用する。
言語生成に適用するための実践的境界を開発する。
本稿では,TVD推定のトレードオフのバランスをとるためのTaiLr の目標について紹介する。
論文 参考訳(メタデータ) (2023-02-26T16:32:52Z) - Probabilistic Kolmogorov-Arnold Network [1.4732811715354455]
本稿では,アレータティック不確実性の場合に出力の確率分布を推定する手法を提案する。
提案手法は, 出力の入力依存確率分布と, 入力による分布型の変化を対象とする。
本手法は任意の回帰モデルに適用できるが, 計算効率のよいモデルの構築につながるため,kansと組み合わせる。
論文 参考訳(メタデータ) (2021-04-04T23:49:15Z) - SUMO: Unbiased Estimation of Log Marginal Probability for Latent
Variable Models [80.22609163316459]
無限級数のランダム化トランケーションに基づく潜在変数モデルに対して、ログ境界確率の非バイアス推定器とその勾配を導入する。
推定器を用いてトレーニングしたモデルは、同じ平均計算コストに対して、標準的な重要度サンプリングに基づくアプローチよりも優れたテストセット確率を与えることを示す。
論文 参考訳(メタデータ) (2020-04-01T11:49:30Z) - Decision-Making with Auto-Encoding Variational Bayes [71.44735417472043]
変分分布とは異なる後部近似を用いて意思決定を行うことが示唆された。
これらの理論的な結果から,最適モデルに関するいくつかの近似的提案を学習することを提案する。
おもちゃの例に加えて,単細胞RNAシークエンシングのケーススタディも紹介する。
論文 参考訳(メタデータ) (2020-02-17T19:23:36Z) - Distributionally Robust Bayesian Quadrature Optimization [60.383252534861136]
確率分布が未知な分布の不確実性の下でBQOについて検討する。
標準的なBQOアプローチは、固定されたサンプル集合が与えられたときの真の期待目標のモンテカルロ推定を最大化する。
この目的のために,新しい後方サンプリングに基づくアルゴリズム,すなわち分布的に堅牢なBQO(DRBQO)を提案する。
論文 参考訳(メタデータ) (2020-01-19T12:00:33Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。