論文の概要: Inadequacies of Large Language Model Benchmarks in the Era of Generative
Artificial Intelligence
- arxiv url: http://arxiv.org/abs/2402.09880v1
- Date: Thu, 15 Feb 2024 11:08:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 16:05:55.810206
- Title: Inadequacies of Large Language Model Benchmarks in the Era of Generative
Artificial Intelligence
- Title(参考訳): 生成人工知能時代における大規模言語モデルベンチマークの不確かさ
- Authors: Timothy R. McIntosh, Teo Susnjak, Tong Liu, Paul Watters, and Malka N.
Halgamuge
- Abstract要約: 我々は23の最先端のLarge Language Modelsベンチマークを批判的に評価する。
私たちの研究は、偏見、真の推論を測ることの難しさなど、重大な制限を発見しました。
静的ベンチマークから動的行動プロファイリングへの進化を提唱する。
- 参考スコア(独自算出の注目度): 5.454656183053655
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The rapid rise in popularity of Large Language Models (LLMs) with emerging
capabilities has spurred public curiosity to evaluate and compare different
LLMs, leading many researchers to propose their LLM benchmarks. Noticing
preliminary inadequacies in those benchmarks, we embarked on a study to
critically assess 23 state-of-the-art LLM benchmarks, using our novel unified
evaluation framework through the lenses of people, process, and technology,
under the pillars of functionality and security. Our research uncovered
significant limitations, including biases, difficulties in measuring genuine
reasoning, adaptability, implementation inconsistencies, prompt engineering
complexity, evaluator diversity, and the overlooking of cultural and
ideological norms in one comprehensive assessment. Our discussions emphasized
the urgent need for standardized methodologies, regulatory certainties, and
ethical guidelines in light of Artificial Intelligence (AI) advancements,
including advocating for an evolution from static benchmarks to dynamic
behavioral profiling to accurately capture LLMs' complex behaviors and
potential risks. Our study highlighted the necessity for a paradigm shift in
LLM evaluation methodologies, underlining the importance of collaborative
efforts for the development of universally accepted benchmarks and the
enhancement of AI systems' integration into society.
- Abstract(参考訳): 新たな能力を持つLarge Language Models (LLM) の人気が急速に高まり、様々な LLM の評価と比較が公の好奇心を喚起し、多くの研究者が LLM ベンチマークを提案するようになった。
これらのベンチマークの予備的な欠陥に気付き、機能性とセキュリティの柱の下で、人間、プロセス、技術のレンズを通して、新たな統一評価フレームワークを使用して、23の最先端llmベンチマークを批判的に評価する研究に着手しました。
本研究は, バイアス, 真理性, 適応性, 実装の不整合, 工学的複雑性の促進, 評価者多様性, 文化的・イデオロギー的規範の全体的評価など, 重大な限界を明らかにした。
我々の議論は、静的ベンチマークから動的行動プロファイリングへの進化を提唱し、LSMの複雑な行動や潜在的なリスクを正確に捉えることを含む、人工知能(AI)の進歩に照らして、標準化された方法論、規制の確実性、倫理的ガイドラインの緊急の必要性を強調した。
本研究は, LLM評価手法のパラダイムシフトの必要性を強調し, 普遍的に受け入れられるベンチマークの開発と, 社会へのAIシステム統合の強化に向けた共同作業の重要性を概説した。
関連論文リスト
- K-Level Reasoning with Large Language Models [80.13817747270029]
急速に発展する環境における意思決定のための大規模言語モデル(LLM)の動的推論機能について検討する。
実世界の動的意思決定の複雑さを反映した2つのゲーム理論に基づくパイロットチャレンジを導入する。
これらの課題は明確に定義されており、LLMの動的推論能力の明確で制御可能で正確な評価を可能にする。
論文 参考訳(メタデータ) (2024-02-02T16:07:05Z) - Leveraging Large Language Models for NLG Evaluation: A Survey [56.21534358429998]
LLM(Large Language Models)の導入は、生成されたコンテンツ品質を評価するための新たな道を開いた。
既存のLCMに基づく評価指標を整理するためのコヒーレントな分類法を提案する。
この調査は、研究者に洞察を提供し、より公平で高度なNLG評価手法を提唱することを目的としている。
論文 参考訳(メタデータ) (2024-01-13T15:59:09Z) - MR-GSM8K: A Meta-Reasoning Revolution in Large Language Model Evaluation [65.07691494584843]
本稿では,メタ推論への取り組みに挑戦する,大規模言語モデルのための新しい評価パラダイムを提案する。
このアプローチは、エージェントの認知能力を評価するために伝統的に用いられてきた既存の数学問題解決ベンチマークにおける重大な欠点に対処する。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [113.72984199026094]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
生成モデルのカウンターファクトの能力を効果的に評価するために,革新的な評価指標であるLogicAware Counterfactual Scoreを提案する。
分析の結果,提案手法は人間の好みとよく一致していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Post Turing: Mapping the landscape of LLM Evaluation [22.517544562890663]
本稿では,アラン・チューリングによる基礎的疑問からAI研究の現代まで,大規模言語モデル (LLM) 評価の歴史的軌跡を追究する。
これらのモデルのより広範な社会的意味を考慮し、統一的な評価システムの必要性を強調した。
この作業は、AIコミュニティがLLM評価の課題に協力して対処し、信頼性、公正性、社会的な利益を保証するために役立ちます。
論文 参考訳(メタデータ) (2023-11-03T17:24:50Z) - Collaborative Evaluation: Exploring the Synergy of Large Language Models
and Humans for Open-ended Generation Evaluation [71.76872586182981]
大規模言語モデル(LLM)は、人間の評価に代わるスケーラブルで費用対効果の高い代替品として登場した。
本稿では,タスク固有の基準のチェックリストとテキストの詳細な評価を含む協調評価パイプラインCoEvalを提案する。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - EpiK-Eval: Evaluation for Language Models as Epistemic Models [16.485951373967502]
セグメンテッドな物語から一貫した知識表現を定式化する上で,LLMの習熟度を評価するための新しい質問答えベンチマークであるEpiK-Evalを紹介する。
これらの欠点は、一般的な訓練目的の本質的な性質に起因していると論じる。
本研究の成果は,より堅牢で信頼性の高いLCMを開発する上での洞察を与えるものである。
論文 参考訳(メタデータ) (2023-10-23T21:15:54Z) - Bias and Fairness in Large Language Models: A Survey [76.65471160523444]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Rethinking Model Evaluation as Narrowing the Socio-Technical Gap [34.08410116336628]
モデル評価の実践は、この均質化によってもたらされる課題や責任に対処するために、重要なタスクを負わなければならない、と我々は主張する。
我々は,現実世界の社会要求に基づく評価手法の開発をコミュニティに促す。
論文 参考訳(メタデータ) (2023-06-01T00:01:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。