論文の概要: A Survey on Large Language Model Benchmarks
- arxiv url: http://arxiv.org/abs/2508.15361v1
- Date: Thu, 21 Aug 2025 08:43:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.242998
- Title: A Survey on Large Language Model Benchmarks
- Title(参考訳): 大規模言語モデルベンチマークに関する調査
- Authors: Shiwen Ni, Guhong Chen, Shuaimin Li, Xuanang Chen, Siyi Li, Bingli Wang, Qiyao Wang, Xingjian Wang, Yifan Zhang, Liyang Fan, Chengming Li, Ruifeng Xu, Le Sun, Min Yang,
- Abstract要約: 一般的な能力ベンチマークは、中核言語学、知識、推論などの側面をカバーする。
ドメイン固有のベンチマークは、自然科学、人文科学、社会科学、エンジニアリング技術といった分野に焦点を当てている。
ターゲット固有のベンチマークは、リスク、信頼性、エージェントなどに注意を払う。
- 参考スコア(独自算出の注目度): 45.042853171973086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, with the rapid development of the depth and breadth of large language models' capabilities, various corresponding evaluation benchmarks have been emerging in increasing numbers. As a quantitative assessment tool for model performance, benchmarks are not only a core means to measure model capabilities but also a key element in guiding the direction of model development and promoting technological innovation. We systematically review the current status and development of large language model benchmarks for the first time, categorizing 283 representative benchmarks into three categories: general capabilities, domain-specific, and target-specific. General capability benchmarks cover aspects such as core linguistics, knowledge, and reasoning; domain-specific benchmarks focus on fields like natural sciences, humanities and social sciences, and engineering technology; target-specific benchmarks pay attention to risks, reliability, agents, etc. We point out that current benchmarks have problems such as inflated scores caused by data contamination, unfair evaluation due to cultural and linguistic biases, and lack of evaluation on process credibility and dynamic environments, and provide a referable design paradigm for future benchmark innovation.
- Abstract(参考訳): 近年,大規模言語モデルの能力の深度と広さの急速な発展に伴い,様々な評価ベンチマークが増加傾向にある。
モデルパフォーマンスの定量的評価ツールとして、ベンチマークはモデル能力を測定するための中核的な手段であるだけでなく、モデル開発の方向性を導き、技術革新を促進する重要な要素でもある。
大規模言語モデルベンチマークの現状と開発を体系的にレビューし,283の代表的なベンチマークを汎用性,ドメイン固有性,ターゲット固有性という3つのカテゴリに分類した。
一般的な能力ベンチマークは、中核言語学、知識、推論といった側面をカバーする; ドメイン固有のベンチマークは、自然科学、人文科学、社会科学、エンジニアリング技術といった分野に焦点を当てる; ターゲット固有のベンチマークは、リスク、信頼性、エージェントなどに注意を払う。
現在のベンチマークには、データ汚染による膨らませたスコア、文化的・言語的バイアスによる不公平な評価、プロセスの信頼性と動的環境に対する評価の欠如、将来のベンチマーク革新のための参照可能な設計パラダイムなどの問題があると指摘する。
関連論文リスト
- Benchmark^2: Systematic Evaluation of LLM Benchmarks [66.2731798872668]
3つの相補的なメトリクスからなる包括的なフレームワークであるBenchmark2を提案する。
数学、推論、知識ドメインにまたがる15のベンチマークで実験を行います。
本分析により,既存のベンチマーク間での有意な品質変化が明らかとなり,選択的なベンチマーク構築が同等な評価性能を達成できることが示されている。
論文 参考訳(メタデータ) (2026-01-07T14:59:03Z) - The Ouroboros of Benchmarking: Reasoning Evaluation in an Era of Saturation [1.2324085268373774]
我々は、ベンチマークを越すことが推論能力を示すのか、それとも単に測定する能力から逸脱した数字を追跡するのかを議論する。
我々は,OpenAI, Anthropic, Googleの3つのモデルファミリと,その推論能力の長年にわたる進化について調査する。
論文 参考訳(メタデータ) (2025-11-03T09:09:29Z) - Towards Ecologically Valid LLM Benchmarks: Understanding and Designing Domain-Centered Evaluations for Journalism Practitioners [2.0388938295521575]
ベンチマークは、研究者や一般大衆が生成AIシステムをどのように理解するかにおいて重要な役割を果たす。
モデル機能に関するコミュニケーションにベンチマークスコアが広く使用されていることから、妥当性に対する批判が生まれている。
本研究では、人間中心のアプローチでこれらの問題に対処するLLMベンチマークの作成方法について検討する。
論文 参考訳(メタデータ) (2025-09-30T21:36:23Z) - Deprecating Benchmarks: Criteria and Framework [2.6449913368815516]
ベンチマークを完全にあるいは部分的に非推奨にする時期を決定するための基準と、ベンチマークを非推奨にするフレームワークを提案する。
我々の研究は、特にフロンティアモデルにおいて、厳格で高品質な評価に向けたベンチマークの状況を改善することを目的としている。
論文 参考訳(メタデータ) (2025-07-08T22:29:06Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - Open-ended VQA benchmarking of Vision-Language models by exploiting Classification datasets and their semantic hierarchy [27.454549324141087]
本稿では、よく知られた視覚分類データセットに基づく新しいVQAベンチマークを提案する。
また,ラベル空間のセマンティックな階層構造を用いて,基底構造カテゴリに関するフォローアップ質問を自動的に生成することを提案する。
私たちの貢献は、より正確で有意義な評価の基礎を築くことを目的としています。
論文 参考訳(メタデータ) (2024-02-11T18:26:18Z) - Advancing the Evaluation of Traditional Chinese Language Models: Towards
a Comprehensive Benchmark Suite [17.764840326809797]
本稿では,既存の英語データセットを活用し,中国語の言語モデルを評価するための新しいベンチマークセットを提案する。
これらのベンチマークには、コンテキスト質問、要約、分類、テーブル理解など、幅広いタスクが含まれている。
本稿では,これらのベンチマークを用いて,GPT-3.5,台湾-LLaMa-v1.0,モデル7-Cの性能評価を行った。
論文 参考訳(メタデータ) (2023-09-15T14:52:23Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。
MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。
MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z) - AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models [122.63704560157909]
我々は,人間中心の標準化試験の文脈で基礎モデルを評価するために設計された新しいベンチマークであるAGIEvalを紹介する。
GPT-4, ChatGPT, Text-Davinci-003 など,最先端基盤モデルの評価を行った。
GPT-4はSAT、LSAT、数学の競争で平均的な人事成績を上回り、SAT Mathテストでは95%の精度で、中国国立大学入試では92.5%の精度で合格している。
論文 参考訳(メタデータ) (2023-04-13T09:39:30Z) - CUGE: A Chinese Language Understanding and Generation Evaluation
Benchmark [144.05723617401674]
汎用言語インテリジェンス評価は、自然言語処理の長年の目標である。
汎用言語インテリジェンス評価には,ベンチマーク自体が包括的で体系的なものである必要がある,と我々は主張する。
以下に示す機能を備えた中国語理解・生成評価ベンチマークであるCUGEを提案する。
論文 参考訳(メタデータ) (2021-12-27T11:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。