論文の概要: Confidence, Not Perplexity: A Better Metric for the Creative Era of LLMs
- arxiv url: http://arxiv.org/abs/2510.08596v1
- Date: Sun, 05 Oct 2025 22:14:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.092193
- Title: Confidence, Not Perplexity: A Better Metric for the Creative Era of LLMs
- Title(参考訳): 自信は複雑ではない - LLMの創造的時代のためのより良いメトリクス
- Authors: V. S. Raghu Parupudi,
- Abstract要約: 信頼スコア (Confidence Score, CS) はモデルの出力確率分布から導出される。
CSは,手軽,中堅,難易の2つのタスクを効果的に区別できることを示す。
- 参考スコア(独自算出の注目度): 1.14219428942199
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reference-free metrics like self-perplexity are strongly biased against creative text generation. We propose the Confidence Score (CS), derived from a model's output probability distribution, as a less biased alternative. Experiments on gpt-4o-mini show that while fluency-based metrics prefer novel responses in 0\% of cases on 99 creative prompts, our CS does so 19% of the time, a statistically significant difference (95% CI for difference: [11.1%, 27.3%]). We also show that CS effectively distinguishes between easy, medium, and hard tasks, confirmed by non-overlapping confidence intervals. The Confidence Score thus mitigates the creativity bias of traditional metrics while retaining their core evaluative strengths, offering a more balanced assessment for modern LLMs.
- Abstract(参考訳): 自己パープレキシティのような基準のないメトリクスは、創造的なテキスト生成に強く偏っている。
モデルの出力確率分布から導出した信頼スコア(CS)を,バイアスの少ない代替案として提案する。
gpt-4o-miniの実験では、99件の創造的プロンプトの05%のケースにおいて、流速に基づく測定値が新規反応を優先しているのに対し、CSは19%の時間で統計的に有意な差(差の95%CI: [11.1%, 27.3%])を示した。
また,CSは,非重なり合う信頼区間によって確認された,簡単,中,硬なタスクを効果的に区別することを示した。
信頼スコアは、伝統的なメトリクスの創造性バイアスを緩和し、中核的な評価力を維持し、現代のLCMに対してよりバランスの取れた評価を提供する。
関連論文リスト
- ConfTuner: Training Large Language Models to Express Their Confidence Verbally [58.63318088243125]
大規模言語モデル(LLM)は、科学、法律、医療といった高度な領域にますます展開されている。
LLMは、しばしば「過信」(overconfidence)として知られる、高い信頼で誤った答えを生成するために観察される。
論文 参考訳(メタデータ) (2025-08-26T09:25:32Z) - Mind the Generation Process: Fine-Grained Confidence Estimation During LLM Generation [63.49409574310576]
大規模言語モデル(LLM)は自信過剰を示し、信頼度の高いスコアを誤った予測に割り当てる。
本研究では,テキスト生成中に高精度できめ細かな信頼スコアを提供する信頼度推定手法であるFineCEを紹介する。
論文で使用されたコードとすべてのベースラインはGitHubで公開されている。
論文 参考訳(メタデータ) (2025-08-16T13:29:35Z) - TRUST: Test-time Resource Utilization for Superior Trustworthiness [15.031121920821109]
このようなノイズの影響を考慮し,より信頼性の高い信頼度推定を行う新しいテスト時間最適化法を提案する。
このスコアは単調なサブセット選択関数を定義し、低いスコアを持つサンプルを除去すると、集団の精度は一貫して上昇する。
論文 参考訳(メタデータ) (2025-06-06T12:52:32Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。
本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - Confidence Improves Self-Consistency in LLMs [17.280967928501678]
信頼性インフォームド・セルフ一貫性(CISC)について紹介する。
CISCは、モデルから直接得られる信頼度スコアに基づいて、重み付けされた多数決を行う。
9つのモデルと4つのデータセットでテストすると、CISCはほぼすべての構成で自己整合性を上回っます。
論文 参考訳(メタデータ) (2025-02-10T08:10:29Z) - On Verbalized Confidence Scores for LLMs [25.160810008907397]
大規模言語モデル(LLM)の不確実性定量化は、その応答に対するより人間的な信頼を確立することができる。
この研究は、出力トークンの一部として信頼度スコアで不確実性を言語化するようLLM自身に求めることに重点を置いている。
我々は、異なるデータセット、モデル、およびプロンプトメソッドに関して、言語化された信頼度スコアの信頼性を評価する。
論文 参考訳(メタデータ) (2024-12-19T11:10:36Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Soft Dice Confidence: A Near-Optimal Confidence Estimator for Selective Prediction in Semantic Segmentation [1.2903829793534267]
本稿では,画像全体の信頼度を1つに見積もるイメージレベルの棄損に焦点をあてて,この問題に対処する。
画像サイズを推定する最適な信頼度推定器を導出する。
次に、線形時間で計算可能な近似であるSoft Dice Confidence (SDC)を提案し、最適推定器に密接なバインドがあることを証明した。
論文 参考訳(メタデータ) (2024-02-16T13:14:12Z) - Adversarial Training with Rectified Rejection [114.83821848791206]
本稿では,信頼度(T-Con)を確実性オラクルとして利用し,信頼度を補正してT-Conを予測することを提案する。
軽度の条件下では、正当性(R-Con)拒絶器と信頼性(R-Con)拒絶器を結合して、不正に分類された入力と正しく分類された入力を区別できることを示す。
論文 参考訳(メタデータ) (2021-05-31T08:24:53Z) - Binary Classification from Positive Data with Skewed Confidence [85.18941440826309]
肯定的信頼度(Pconf)分類は、有望な弱教師付き学習法である。
実際には、信頼はアノテーションプロセスで生じるバイアスによって歪められることがある。
本稿では、スキュード信頼度のパラメータ化モデルを導入し、ハイパーパラメータを選択する方法を提案する。
論文 参考訳(メタデータ) (2020-01-29T00:04:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。