Fugu-MT 論文翻訳(概要): Towards Reproducible LLM Evaluation: Quantifying Uncertainty in LLM Benchmark Scores

論文の概要: Towards Reproducible LLM Evaluation: Quantifying Uncertainty in LLM Benchmark Scores

arxiv url: http://arxiv.org/abs/2410.03492v2
Date: Fri, 27 Jun 2025 09:33:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-30 21:12:22.90045
Title: Towards Reproducible LLM Evaluation: Quantifying Uncertainty in LLM Benchmark Scores
Title（参考訳）: 再現可能なLCM評価に向けて:LCMベンチマークスコアの不確かさの定量化
Authors: Robert E. Blackwell, Jon Barry, Anthony G. Cohn,
Abstract要約: 我々は、大きな言語モデルの能力をテストするために設計されたベンチマークを使用して、基準方向を推論する。本稿では,ベンチマークスコアの不確かさを定量的に定量化するための簡易な手法を提案する。
参考スコア（独自算出の注目度）: 2.886479348067378
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) are stochastic, and not all models give deterministic answers, even when setting temperature to zero with a fixed random seed. However, few benchmark studies attempt to quantify uncertainty, partly due to the time and cost of repeated experiments. We use benchmarks designed for testing LLMs' capacity to reason about cardinal directions to explore the impact of experimental repeats on mean score and prediction interval. We suggest a simple method for cost-effectively quantifying the uncertainty of a benchmark score and make recommendations concerning reproducible LLM evaluation.
Abstract（参考訳）: 大規模言語モデル(LLM)は確率的であり、固定されたランダムシードで温度を0に設定しても、すべてのモデルが決定論的回答を与えるわけではない。しかしながら、連続実験の時間とコストのために不確実性を定量化しようとするベンチマーク研究はほとんどない。 LLMのキャパシティをテストするために設計されたベンチマークを用いて,実験的な繰り返しが平均スコアと予測間隔に与える影響を推定する。本稿では,ベンチマークスコアの不確かさを簡易に定量化する手法を提案し,再現可能なLCM評価について提案する。

関連論文リスト

Confident Rankings with Fewer Items: Adaptive LLM Evaluation with Continuous Scores [25.638175689769934]
IRTベースの適応テストの原則的拡張を連続有界スコア(ROUGE, BLEU, LLM-as-a-Judge)に適用する。本稿では,信頼性の高いモデルランキングを実現するための適応的停止基準付き不確実性意識ランクアを導入し,できるだけ少数の項目をテストする。提案手法では,各項目の2%をランダムサンプリングよりも格付け相関を0.12改善し,95%の精度で信頼度予測を行う。
論文参考訳（メタデータ） (2026-01-20T11:59:13Z)
Instance-level Randomization: Toward More Stable LLM Evaluations [24.635769915931018]
大規模言語モデル(LLM)の評価は不安定性に悩まされる。少数ショット例のようなランダムな要因の小さな変化は、スコアの劇的な変動や、モデルランキングさえも引き起こす。本稿では,モデル比較における分散の低減と公平性を高めるために,インスタンスレベルのランダム化(ILR)手法を提案する。
論文参考訳（メタデータ） (2025-09-16T05:04:00Z)
CodeJudgeBench: Benchmarking LLM-as-a-Judge for Coding Tasks [63.562924932512765]
LLM(Large Language Models)は、様々なコーディングタスクにおいて最先端の言語モデルである。 LLMは、他のモデルによって生成された応答の品質を評価し、比較する裁判官としても機能する。
論文参考訳（メタデータ） (2025-07-14T17:56:29Z)
Estimating LLM Consistency: A User Baseline vs Surrogate Metrics [7.902385931726113]
大型言語モデル(LLM)は幻覚を起こしやすく、急激な摂動に敏感である。 LLMの一貫性を推定するためのロジットに基づくアンサンブル法を提案する。
論文参考訳（メタデータ） (2025-05-26T16:53:47Z)
Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。 LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文参考訳（メタデータ） (2025-02-13T03:43:33Z)
Unconditional Truthfulness: Learning Unconditional Uncertainty of Large Language Models [104.55763564037831]
我々は、注意マップ、現在の生成ステップにおける確率、および以前に生成されたトークンから繰り返し計算された不確実性スコアを利用する回帰モデルを訓練する。評価の結果,提案手法は選択的生成に極めて有効であり,教師なしアプローチと教師なしアプローチに比較して大幅な改善が得られた。
論文参考訳（メタデータ） (2024-08-20T09:42:26Z)
The Good, The Bad, and The Greedy: Evaluation of LLMs Should Not Ignore Non-Determinism [39.392450788666814]
大規模言語モデル(LLM)の現在の評価は、しばしば非決定論を見落としている。 greedyデコーディングは一般的に、最も評価されたタスクのサンプリング方法よりも優れています。より小型のLPMはGPT-4-Turboのような大型のモデルと一致するか、超えることができる。
論文参考訳（メタデータ） (2024-07-15T06:12:17Z)
Inference-Time Decontamination: Reusing Leaked Benchmarks for Large Language Model Evaluation [61.350306618479365]
ベンチマークの漏洩は、大規模言語モデルの真のパフォーマンスの正確な評価を防ぐことができる。この問題に対処するため,ITD(Inference-Time Decontamination)を提案する。 ITDは、GSM8Kで22.9%、MMLUで19.0%の膨張精度を低下させる。
論文参考訳（メタデータ） (2024-06-20T04:35:59Z)
UBENCH: Benchmarking Uncertainty in Large Language Models with Multiple Choice Questions [10.28688988951815]
UBENCHは、大きな言語モデルを評価するためのベンチマークである。これには、知識、言語、理解、推論能力に関する3,978の質問が含まれている。また,15個のLPMの信頼性を評価し,GLM4が最も優れていることを発見した。
論文参考訳（メタデータ） (2024-06-18T16:50:38Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。我々はLSMに答えを自己評価するように指示する。自己評価に基づくスコアリング手法をベンチマークする。
論文参考訳（メタデータ） (2023-12-14T19:09:22Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。