論文の概要: Efficient Benchmarking (of Language Models)
- arxiv url: http://arxiv.org/abs/2308.11696v3
- Date: Mon, 18 Sep 2023 16:25:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 22:24:24.303577
- Title: Efficient Benchmarking (of Language Models)
- Title(参考訳): 言語モデルの効率的なベンチマーク
- Authors: Yotam Perlitz, Elron Bandel, Ariel Gera, Ofir Arviv, Liat Ein-Dor,
Eyal Shnarch, Noam Slonim, Michal Shmueli-Scheuer, Leshem Choshen
- Abstract要約: 本稿では、信頼性を損なうことなく、LM評価の計算コストをインテリジェントに削減する効率的なベンチマーク問題を提案する。
HELMベンチマークをテストケースとして、異なるベンチマーク設計選択が計算-信頼性のトレードオフにどのように影響するかを検討する。
- 参考スコア(独自算出の注目度): 23.45140610835939
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing versatility of language models LMs has given rise to a new
class of benchmarks that comprehensively assess a broad range of capabilities.
Such benchmarks are associated with massive computational costs reaching
thousands of GPU hours per model. However the efficiency aspect of these
evaluation efforts had raised little discussion in the literature. In this work
we present the problem of Efficient Benchmarking namely intelligently reducing
the computation costs of LM evaluation without compromising reliability. Using
the HELM benchmark as a test case we investigate how different benchmark design
choices affect the computation-reliability tradeoff. We propose to evaluate the
reliability of such decisions by using a new measure Decision Impact on
Reliability DIoR for short. We find for example that the current leader on HELM
may change by merely removing a low-ranked model from the benchmark and observe
that a handful of examples suffice to obtain the correct benchmark ranking.
Conversely a slightly different choice of HELM scenarios varies ranking widely.
Based on our findings we outline a set of concrete recommendations for more
efficient benchmark design and utilization practices leading to dramatic cost
savings with minimal loss of benchmark reliability often reducing computation
by x100 or more.
- Abstract(参考訳): 言語モデルの汎用性の向上により、LMは幅広い能力を包括的に評価する新しいクラスのベンチマークを生み出した。
このようなベンチマークは、モデル当たり数千gpu時間に達する膨大な計算コストと関連している。
しかし,これらの評価作業の効率性は文献上ではほとんど議論されなかった。
本稿では,lm評価の計算コストを,信頼性を損なうことなくインテリジェントに削減する,効率的なベンチマーク問題を提案する。
helmベンチマークをテストケースとして使用することにより,ベンチマーク設計の異なる選択が計算信頼性のトレードオフに与える影響を調べる。
そこで本研究では,新しい尺度決定が信頼性ディオールに与える影響を簡潔に評価することを提案する。
例えば、HELMの現在のリーダーは、単にベンチマークから低ランクのモデルを取り除くだけで変化し、いくつかのサンプルが正しいベンチマークランキングを得るのに十分であることを示す。
逆に、ヘルムシナリオのわずかに異なる選択は、ランクが異なる。
ベンチマークの信頼性を最小限に抑えることで、より効率的なベンチマーク設計と利用プラクティスのための具体的な推奨事項を概説し、しばしばx100以上の計算を削減します。
関連論文リスト
- Active Evaluation Acquisition for Efficient LLM Benchmarking [18.85604491151409]
学習ポリシを用いて,各ベンチマークからサンプルのサブセットを選択することにより,評価効率を向上させる戦略を検討する。
提案手法は,テスト例間の依存関係をモデル化し,残りの例に対する評価結果の正確な予測を可能にする。
実験の結果,提案手法は必要な評価プロンプトの数を大幅に削減することが示された。
論文 参考訳(メタデータ) (2024-10-08T12:08:46Z) - Inference-Time Decontamination: Reusing Leaked Benchmarks for Large Language Model Evaluation [61.350306618479365]
ベンチマークの漏洩は、大規模言語モデルの真のパフォーマンスの正確な評価を防ぐことができる。
この問題に対処するため,ITD(Inference-Time Decontamination)を提案する。
ITDは、GSM8Kで22.9%、MMLUで19.0%の膨張精度を低下させる。
論文 参考訳(メタデータ) (2024-06-20T04:35:59Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - An energy-based comparative analysis of common approaches to text
classification in the Legal domain [0.856335408411906]
大規模言語モデル(LLM)は、学術や産業におけるNLP問題に対処するために広く採用されている。
本稿では,LexGLUEベンチマークでLLMと従来のアプローチ(SVMなど)を詳細に比較する。
その結果、最も単純なアルゴリズムは大きなLLMに非常に近い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-11-02T14:16:48Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Deep Reinforcement Learning at the Edge of the Statistical Precipice [31.178451465925555]
深部RL体制下での信頼性評価は、現場の進捗を遅らせるリスクを負うことなく、結果の不確かさを無視することはできないと論じる。
我々は,集計性能の時間間隔推定を提唱し,結果の変動性を考慮した性能プロファイルを提案する。
論文 参考訳(メタデータ) (2021-08-30T14:23:48Z) - The Benchmark Lottery [114.43978017484893]
ベンチマーク宝くじ」は、機械学習ベンチマークプロセスの全体的な脆弱さを記述している。
アルゴリズムの相対的性能は、異なるベンチマークタスクを選択するだけで大幅に変化する可能性がある。
論文 参考訳(メタデータ) (2021-07-14T21:08:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。