論文の概要: LLMeBench: A Flexible Framework for Accelerating LLMs Benchmarking
- arxiv url: http://arxiv.org/abs/2308.04945v2
- Date: Mon, 26 Feb 2024 13:33:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 22:40:04.397538
- Title: LLMeBench: A Flexible Framework for Accelerating LLMs Benchmarking
- Title(参考訳): LLMeBench: LLMベンチマークを高速化するための柔軟なフレームワーク
- Authors: Fahim Dalvi, Maram Hasanain, Sabri Boughorbel, Basel Mousi, Samir
Abdaljalil, Nizi Nazar, Ahmed Abdelali, Shammur Absar Chowdhury, Hamdy
Mubarak, Ahmed Ali, Majd Hawasly, Nadir Durrani, Firoj Alam
- Abstract要約: 言語に関係なく,任意のNLPタスクに対してLLM(Large Language Models)を評価するために,シームレスにカスタマイズできるLLMeBenchフレームワークを紹介した。
特定のデータセットとタスクは、20行未満のコードで所定のLLMに対して評価できると同時に、カスタムデータセット、モデル、タスクのためのフレームワークを完全な柔軟性で拡張することができる。
このフレームワークは、約296Kのデータポイントを含む90の実験的なセットアップ内で53の公開データセットを使用して、31のユニークなNLPタスクでテストされている。
- 参考スコア(独自算出の注目度): 26.413008616554816
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The recent development and success of Large Language Models (LLMs)
necessitate an evaluation of their performance across diverse NLP tasks in
different languages. Although several frameworks have been developed and made
publicly available, their customization capabilities for specific tasks and
datasets are often complex for different users. In this study, we introduce the
LLMeBench framework, which can be seamlessly customized to evaluate LLMs for
any NLP task, regardless of language. The framework features generic dataset
loaders, several model providers, and pre-implements most standard evaluation
metrics. It supports in-context learning with zero- and few-shot settings. A
specific dataset and task can be evaluated for a given LLM in less than 20
lines of code while allowing full flexibility to extend the framework for
custom datasets, models, or tasks. The framework has been tested on 31 unique
NLP tasks using 53 publicly available datasets within 90 experimental setups,
involving approximately 296K data points. We open-sourced LLMeBench for the
community (https://github.com/qcri/LLMeBench/) and a video demonstrating the
framework is available online. (https://youtu.be/9cC2m_abk3A)
- Abstract(参考訳): 近年のLarge Language Models (LLMs) の発展と成功は,異なる言語における多様なNLPタスク間での性能評価を必要とする。
いくつかのフレームワークが開発され、公開されているが、特定のタスクやデータセットのカスタマイズ機能は、しばしば異なるユーザーにとって複雑である。
本研究では,言語に関係なく,任意のNLPタスクに対してLLMをシームレスにカスタマイズできるLLMeBenchフレームワークを提案する。
このフレームワークは、ジェネリックデータセットローダ、いくつかのモデルプロバイダ、およびほとんどの標準評価メトリクスをプリ実装する。
ゼロと数ショット設定で、コンテキスト内学習をサポートする。
特定のデータセットとタスクは、与えられたllmに対して20行以下のコードで評価でき、カスタムデータセット、モデル、タスクのフレームワークをフルに柔軟に拡張できる。
このフレームワークは、約296Kのデータポイントを含む90の実験セットアップ内で53の公開データセットを使用して31のユニークなNLPタスクでテストされている。
コミュニティ向けのLLMeBench(https://github.com/qcri/LLMeBench/)をオープンソースとして公開しています。
(https://youtu.be/9cC2m_abk3A)
関連論文リスト
- Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - ML-Bench: Evaluating Large Language Models for Code Generation in Repository-Level Machine Learning Tasks [76.85930757493409]
大規模言語モデル(LLM)は、コード生成ベンチマークの習熟度を示しているが、これらの結果を実用的な開発シナリオに変換することは依然として難しい。
ML-Benchは、レポジトリレベルのオープンソースライブラリを統合して機械学習タスクを完了させるLLMの機能を評価するために設計された、新しいベンチマークである。
以上の結果から, GPT-4は他のLSMよりも優れており, 課題の複雑さを浮き彫りにしたタスクは33.82%に過ぎなかった。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task
Completion [96.47420221442397]
我々はPowerPoint Task Completionベンチマークを導入し、大規模言語モデルがマルチターン・マルチモーダル命令を完了する能力を評価する。
また,ラベルAPIシーケンスではなく,予測ファイルに基づいてLCMが命令を終了するかどうかを評価するPTX-Match評価システムを提案する。
その結果、GPT-4はシングルターン対話テストにおいて75.1%の精度で他のLLMよりも優れていたが、セッション全体を完成させる際の課題に直面しており、セッションの精度は6%に過ぎなかった。
論文 参考訳(メタデータ) (2023-11-03T08:06:35Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context
Understanding [59.623007535233]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z) - Learning to Retrieve In-Context Examples for Large Language Models [69.9707552694766]
大規模言語モデル(LLM)は、文脈内で学習する能力を示している。
文脈内学習の有効性は、選択した例の品質に大きく依存する。
高品質なインコンテキストの例を識別可能な高密度検索を反復的に学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-14T05:23:08Z) - Table Meets LLM: Can Large Language Models Understand Structured Table
Data? A Benchmark and Empirical Study [47.6239689986714]
大規模言語モデル(LLM)は、自然言語(NL)に関連する課題を解決するために、数ショットの推論器として魅力的になってきている。
我々は,LLMの構造理解能力(SUC)を評価するためのベンチマークを設計することで,これを理解しようとしている。
その結果、テーブル入力形式、コンテンツ順序、ロールプロンプト、パーティションマークなど、いくつかの入力選択によってパフォーマンスが変化していることが判明した。
論文 参考訳(メタデータ) (2023-05-22T14:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。