論文の概要: Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis
- arxiv url: http://arxiv.org/abs/2502.08943v2
- Date: Fri, 14 Feb 2025 06:10:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:48:47.681896
- Title: Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis
- Title(参考訳): 特異性を超えて: 効果的なベンチマーク評価と分析における複数世代の役割
- Authors: Wenbo Zhang, Hengrui Cai, Wenyu Chen,
- Abstract要約: 大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
- 参考スコア(独自算出の注目度): 10.133537818749291
- License:
- Abstract: Large language models (LLMs) have demonstrated significant utilities in real-world applications, exhibiting impressive capabilities in natural language processing and understanding. Benchmark evaluations are crucial for assessing the capabilities of LLMs as they can provide a comprehensive assessment of their strengths and weaknesses. However, current evaluation methods often overlook the inherent randomness of LLMs by employing deterministic generation strategies or relying on a single random sample, resulting in unaccounted sampling variance and unreliable benchmark score estimates. In this paper, we propose a hierarchical statistical model that provides a more comprehensive representation of the benchmarking process by incorporating both benchmark characteristics and LLM randomness. We show that leveraging multiple generations improves the accuracy of estimating the benchmark score and reduces variance. We also introduce $\mathbb P\left(\text{correct}\right)$, a prompt-level difficulty score based on correct ratios, providing fine-grained insights into individual prompts. Additionally, we create a data map that visualizes difficulty and semantic prompts, enabling error detection and quality control in benchmark construction.
- Abstract(参考訳): 大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを示し、自然言語処理と理解において素晴らしい能力を示している。
ベンチマーク評価は、LLMの強みと弱さを総合的に評価できるため、LCMの能力を評価するために不可欠である。
しかし、現在の評価手法は、決定論的生成戦略を採用するか、1つのランダムサンプルを頼りにすることで、LCMの固有のランダム性を見落とし、未計算のサンプリング分散と信頼性の低いベンチマークスコアを推定する。
本稿では,ベンチマーク特性とLLMランダム性の両方を取り入れた,ベンチマークプロセスのより包括的な表現を提供する階層統計モデルを提案する。
複数の世代を活用すれば、ベンチマークスコアの推定精度が向上し、ばらつきを低減できることを示す。
また、正しい比率に基づくプロンプトレベルの難易度スコアである$\mathbb P\left(\text{correct}\right)$を導入し、個々のプロンプトについて詳細な洞察を提供する。
さらに、困難や意味的なプロンプトを可視化するデータマップを作成し、ベンチマーク構築におけるエラー検出と品質管理を可能にします。
関連論文リスト
- BenchmarkCards: Large Language Model and Risk Reporting [4.224255134206838]
大きな言語モデル(LLM)は強力な能力を提供するが、大きなリスクをもたらす。
これらのリスクを軽減する方法の1つは、特定の脆弱性をテストするために設計されたベンチマークを使用して、包括的な事前デプロイ評価を行うことである。
BenchmarkCardsは、LLMベンチマークプロパティのドキュメント化に特化した構造化フレームワークを提供することで、このギャップに対処する。
論文 参考訳(メタデータ) (2024-10-16T19:09:02Z) - Data Efficient Evaluation of Large Language Models and Text-to-Image Models via Adaptive Sampling [3.7467864495337624]
SubLIMEはテキスト・ツー・イメージ・モデルのためのデータ効率評価フレームワークである。
我々のアプローチは、完全なデータセットと比較して統計的に整合したモデルランキングを保証する。
HEIMのリーダーボードを利用して、17の異なるベンチマークで25のテキスト・ツー・イメージモデルをカバーしています。
論文 参考訳(メタデータ) (2024-06-21T07:38:55Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - Efficient Benchmarking of Language Models [22.696230279151166]
本稿では、信頼性を損なうことなく、LM評価のコストをインテリジェントに削減する、効率的なベンチマーク問題を提案する。
HELMベンチマークをテストケースとして、異なるベンチマーク設計選択が計算-信頼性トレードオフにどのように影響するかを検討する。
本稿では,HELMベンチマークに適用した場合,ベンチマーク信頼性の低下を最小限に抑えながら,大幅なコスト削減を実現する評価アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-22T17:59:30Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - The Benchmark Lottery [114.43978017484893]
ベンチマーク宝くじ」は、機械学習ベンチマークプロセスの全体的な脆弱さを記述している。
アルゴリズムの相対的性能は、異なるベンチマークタスクを選択するだけで大幅に変化する可能性がある。
論文 参考訳(メタデータ) (2021-07-14T21:08:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。