Fugu-MT 論文翻訳(概要): Are Generative Models Underconfident? Better Quality Estimation with Boosted Model Probability

論文の概要: Are Generative Models Underconfident? Better Quality Estimation with Boosted Model Probability

arxiv url: http://arxiv.org/abs/2502.11115v2
Date: Thu, 29 May 2025 11:33:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-30 15:42:33.204457
Title: Are Generative Models Underconfident? Better Quality Estimation with Boosted Model Probability
Title（参考訳）: 生成モデルは不確実か? モデル確率の向上による品質評価の改善
Authors: Tu Anh Dinh, Jan Niehues,
Abstract要約: テキスト生成モデルの出力確率は不確実であることを示す。我々はBoostedProbと呼ばれるQEアプローチを提案し、モデルの信頼性を高める。複雑さが増すことなく、BoostedProbは、異なる設定での生モデルの確率よりも顕著に優れている。
参考スコア（独自算出の注目度）: 16.190746208019743
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Quality Estimation (QE) is estimating quality of the model output during inference when the ground truth is not available. Deriving output quality from the models' output probability is the most trivial and low-effort way. However, we show that the output probability of text-generation models can appear underconfident. At each output step, there can be multiple correct options, making the probability distribution spread out more. Thus, lower probability does not necessarily mean lower output quality. Due to this observation, we propose a QE approach called BoostedProb, which boosts the model's confidence in cases where there are multiple viable output options. With no increase in complexity, BoostedProb is notably better than raw model probability in different settings, achieving on average +0.194 improvement in Pearson correlation to ground-truth quality. It also comes close to or outperforms more costly approaches like supervised or ensemble-based QE in certain settings.
Abstract（参考訳）: 品質推定(QE)は、基礎的真理が得られない場合の推論において、モデル出力の品質を推定する。モデルの出力確率から出力品質を導出することは、最も自明で低益な方法である。しかし,テキスト生成モデルの出力確率は不確実であることを示す。各出力ステップには複数の正しいオプションがあり、確率分布がより広がる。したがって、低い確率は必ずしも低い出力品質を意味するとは限らない。そこで本研究では,複数の実行可能な出力オプションが存在する場合のモデルの信頼性を高める,BoostedProbというQEアプローチを提案する。複雑さが増すことなく、BoostedProbは、異なる設定での生モデルの確率よりも顕著に優れており、Pearsonと地味品質の相関性の平均+0.194の改善を達成している。また、特定の設定で教師付きやアンサンブルベースのQEのような、よりコストのかかるアプローチに近づいたり、より優れています。

関連論文リスト

Improving the Calibration of Confidence Scores in Text Generation Using the Output Distribution's Characteristics [20.28986622627476]
よく校正されたモデル信頼スコアは、テキスト生成モデルの有用性を向上させることができる。生成に適したタスク非依存の信頼性指標を提案する。
論文参考訳（メタデータ） (2025-05-31T17:01:45Z)
Solving Robust Markov Decision Processes: Generic, Reliable, Efficient [3.789219860006095]
マルコフ決定プロセス(MDP)は確率の存在下でのシーケンシャルな意思決定のための確立されたモデルである。我々は、汎用的で信頼性があり、効率的なRMDPを解くためのフレームワークを提供する。我々のプロトタイプ実装は、既存のツールよりも桁違いに優れている。
論文参考訳（メタデータ） (2024-12-13T14:55:48Z)
Estimating the Probabilities of Rare Outputs in Language Models [8.585890569162267]
小型変圧器言語モデルからのargmaxサンプリングの文脈における低確率推定について検討した。その結果、重要サンプリングはアクティベーション外挿より優れるが、どちらもナイーブサンプリングより優れていることがわかった。低確率推定のための新しい手法は、最悪の場合の性能についてより強力な保証を提供するために必要である、と我々は主張する。
論文参考訳（メタデータ） (2024-10-17T04:31:18Z)
A Probabilistic Perspective on Unlearning and Alignment for Large Language Models [48.96686419141881]
大規模言語モデル(LLM)における最初の形式的確率的評価フレームワークを紹介する。モデルの出力分布に関する高い確率保証を持つ新しい指標を導出する。私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
論文参考訳（メタデータ） (2024-10-04T15:44:23Z)
Self-Consistency of Large Language Models under Ambiguity [4.141513298907867]
本研究は,不特定の場合の自己整合性評価ベンチマークを示す。あいまいな整数列補完タスクを用いて,OpenAIモデルスイート上で一連の動作実験を行う。平均一貫性は67%から82%の範囲であり、モデルの一貫性がランダムであれば予測されるよりもはるかに高い。
論文参考訳（メタデータ） (2023-10-20T11:57:56Z)
Convergence guarantee for consistency models [9.893455771918793]
本稿では,新しい一段階生成モデルであるCM(Consistency Models)の収束保証について述べる。スコアマッチングエラー、一貫性エラー、データ分布の滑らかさに関する基本的な前提の下で、CMは1ステップで任意の現実的なデータ分布から、小さな$W$エラーで効率的にサンプリングすることができる。
論文参考訳（メタデータ） (2023-08-22T13:57:35Z)
Tailoring Language Generation Models under Total Variation Distance [55.89964205594829]
ニューラルネットワーク生成の標準パラダイムは、最適化方法として最大推定(MLE)を採用する。言語生成に適用するための実践的境界を開発する。本稿では,TVD推定のトレードオフのバランスをとるためのTaiLr の目標について紹介する。
論文参考訳（メタデータ） (2023-02-26T16:32:52Z)
Error-based Knockoffs Inference for Controlled Feature Selection [49.99321384855201]
本手法では, ノックオフ特徴量, エラーベース特徴重要度統計量, ステップダウン手順を一体化して, エラーベースのノックオフ推定手法を提案する。提案手法では回帰モデルを指定する必要はなく,理論的保証で特徴選択を処理できる。
論文参考訳（メタデータ） (2022-03-09T01:55:59Z)
Probabilistic Kolmogorov-Arnold Network [1.4732811715354455]
本稿では,アレータティック不確実性の場合に出力の確率分布を推定する手法を提案する。提案手法は, 出力の入力依存確率分布と, 入力による分布型の変化を対象とする。本手法は任意の回帰モデルに適用できるが, 計算効率のよいモデルの構築につながるため,kansと組み合わせる。
論文参考訳（メタデータ） (2021-04-04T23:49:15Z)
Contextual Dropout: An Efficient Sample-Dependent Dropout Module [60.63525456640462]
ドロップアウトは、ディープニューラルネットワークのトレーニングプロセスを正規化するシンプルで効果的なモジュールとして実証されています。単純でスケーラブルなサンプル依存型ドロップアウトモジュールとして,効率的な構造設計によるコンテキスト型ドロップアウトを提案する。提案手法は,不確実性推定の精度と品質の両面において,ベースライン法よりも優れていた。
論文参考訳（メタデータ） (2021-03-06T19:30:32Z)
Probabilistic Circuits for Variational Inference in Discrete Graphical Models [101.28528515775842]
変分法による離散的グラフィカルモデルの推論は困難である。エビデンス・ロウアーバウンド(ELBO)を推定するためのサンプリングに基づく多くの手法が提案されている。 Sum Product Networks (SPN) のような確率的回路モデルのトラクタビリティを活用する新しい手法を提案する。選択的SPNが表現的変動分布として適していることを示し、対象モデルの対数密度が重み付けされた場合、対応するELBOを解析的に計算可能であることを示す。
論文参考訳（メタデータ） (2020-10-22T05:04:38Z)
SUMO: Unbiased Estimation of Log Marginal Probability for Latent Variable Models [80.22609163316459]
無限級数のランダム化トランケーションに基づく潜在変数モデルに対して、ログ境界確率の非バイアス推定器とその勾配を導入する。推定器を用いてトレーニングしたモデルは、同じ平均計算コストに対して、標準的な重要度サンプリングに基づくアプローチよりも優れたテストセット確率を与えることを示す。
論文参考訳（メタデータ） (2020-04-01T11:49:30Z)
Decision-Making with Auto-Encoding Variational Bayes [71.44735417472043]
変分分布とは異なる後部近似を用いて意思決定を行うことが示唆された。これらの理論的な結果から,最適モデルに関するいくつかの近似的提案を学習することを提案する。おもちゃの例に加えて,単細胞RNAシークエンシングのケーススタディも紹介する。
論文参考訳（メタデータ） (2020-02-17T19:23:36Z)
Distributionally Robust Bayesian Quadrature Optimization [60.383252534861136]
確率分布が未知な分布の不確実性の下でBQOについて検討する。標準的なBQOアプローチは、固定されたサンプル集合が与えられたときの真の期待目標のモンテカルロ推定を最大化する。この目的のために,新しい後方サンプリングに基づくアルゴリズム,すなわち分布的に堅牢なBQO(DRBQO)を提案する。
論文参考訳（メタデータ） (2020-01-19T12:00:33Z)
AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。 3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文参考訳（メタデータ） (2020-01-15T18:32:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。