Fugu-MT 論文翻訳(概要): LLMeBench: A Flexible Framework for Accelerating LLMs Benchmarking

論文の概要: LLMeBench: A Flexible Framework for Accelerating LLMs Benchmarking

arxiv url: http://arxiv.org/abs/2308.04945v2
Date: Mon, 26 Feb 2024 13:33:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-28 22:40:04.397538
Title: LLMeBench: A Flexible Framework for Accelerating LLMs Benchmarking
Title（参考訳）: LLMeBench: LLMベンチマークを高速化するための柔軟なフレームワーク
Authors: Fahim Dalvi, Maram Hasanain, Sabri Boughorbel, Basel Mousi, Samir Abdaljalil, Nizi Nazar, Ahmed Abdelali, Shammur Absar Chowdhury, Hamdy Mubarak, Ahmed Ali, Majd Hawasly, Nadir Durrani, Firoj Alam
Abstract要約: 言語に関係なく,任意のNLPタスクに対してLLM(Large Language Models)を評価するために,シームレスにカスタマイズできるLLMeBenchフレームワークを紹介した。特定のデータセットとタスクは、20行未満のコードで所定のLLMに対して評価できると同時に、カスタムデータセット、モデル、タスクのためのフレームワークを完全な柔軟性で拡張することができる。このフレームワークは、約296Kのデータポイントを含む90の実験的なセットアップ内で53の公開データセットを使用して、31のユニークなNLPタスクでテストされている。
参考スコア（独自算出の注目度）: 26.413008616554816
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The recent development and success of Large Language Models (LLMs) necessitate an evaluation of their performance across diverse NLP tasks in different languages. Although several frameworks have been developed and made publicly available, their customization capabilities for specific tasks and datasets are often complex for different users. In this study, we introduce the LLMeBench framework, which can be seamlessly customized to evaluate LLMs for any NLP task, regardless of language. The framework features generic dataset loaders, several model providers, and pre-implements most standard evaluation metrics. It supports in-context learning with zero- and few-shot settings. A specific dataset and task can be evaluated for a given LLM in less than 20 lines of code while allowing full flexibility to extend the framework for custom datasets, models, or tasks. The framework has been tested on 31 unique NLP tasks using 53 publicly available datasets within 90 experimental setups, involving approximately 296K data points. We open-sourced LLMeBench for the community (https://github.com/qcri/LLMeBench/) and a video demonstrating the framework is available online. (https://youtu.be/9cC2m_abk3A)
Abstract（参考訳）: 近年のLarge Language Models (LLMs) の発展と成功は,異なる言語における多様なNLPタスク間での性能評価を必要とする。いくつかのフレームワークが開発され、公開されているが、特定のタスクやデータセットのカスタマイズ機能は、しばしば異なるユーザーにとって複雑である。本研究では,言語に関係なく,任意のNLPタスクに対してLLMをシームレスにカスタマイズできるLLMeBenchフレームワークを提案する。このフレームワークは、ジェネリックデータセットローダ、いくつかのモデルプロバイダ、およびほとんどの標準評価メトリクスをプリ実装する。ゼロと数ショット設定で、コンテキスト内学習をサポートする。特定のデータセットとタスクは、与えられたllmに対して20行以下のコードで評価でき、カスタムデータセット、モデル、タスクのフレームワークをフルに柔軟に拡張できる。このフレームワークは、約296Kのデータポイントを含む90の実験セットアップ内で53の公開データセットを使用して31のユニークなNLPタスクでテストされている。コミュニティ向けのLLMeBench(https://github.com/qcri/LLMeBench/)をオープンソースとして公開しています。 (https://youtu.be/9cC2m_abk3A)

関連論文リスト

BenchHub: A Unified Benchmark Suite for Holistic and Customizable LLM Evaluation [13.897645524385274]
BenchHubは動的ベンチマークリポジトリで、研究者や開発者がより大きな言語モデル(LLM)をより効果的に評価できるようにする。継続的更新とスケーラブルなデータ管理をサポートし、さまざまなドメインやユースケースに合わせてフレキシブルでカスタマイズ可能な評価を可能にするように設計されている。
論文参考訳（メタデータ） (2025-05-31T09:24:32Z)
LLM-KG-Bench 3.0: A Compass for SemanticTechnology Capabilities in the Ocean of LLMs [0.12564343689544843]
現在のLLM(Large Language Models)は、プログラムコードの開発を、他の多くの側面でも支援できますが、KG(Knowledge Graphs)との連携もサポートできますか? バージョン3.0のLLM-KG-Benchフレームワークは、これらの質問に答えるために設計されている。 LLM回答を自動評価するための一連のタスクで構成されており、セマンティックテクノロジーの様々な側面をカバーしている。
論文参考訳（メタデータ） (2025-05-19T13:29:27Z)
A Large-scale Class-level Benchmark Dataset for Code Generation with LLMs [3.458772578520879]
我々は、13,174ドルのオープンソースのプロジェクトから収集した大規模なPythonクラスレベルのデータセットを紹介します。データセットには842,000以上のクラススケルトンが含まれている。抽出されたクラススケルトンを,全クラス実装を生成するためのGPT-4のプロンプトとして使用する。その結果, LLM 生成クラスは, 平均 ROUGE@L, BLEU, TSED スコア0.80, 0.59, 0.73 と強い語彙的および構造的類似性を示した。
論文参考訳（メタデータ） (2025-04-22T03:33:57Z)
TituLLMs: A Family of Bangla LLMs with Comprehensive Benchmarking [6.070192392563392]
1b と 3b のパラメータサイズで利用可能な,最初の大規模事前訓練型 Bangla LLM である TituLLM を提案する。 TituLLMsをトレーニングするために、約37億トークンの事前トレーニングデータセットを収集しました。我々はLlama-3.2トークンを言語や文化固有の知識に組み込むように拡張した。
論文参考訳（メタデータ） (2025-02-16T16:22:23Z)
ULLME: A Unified Framework for Large Language Model Embeddings with Generation-Augmented Learning [72.90823351726374]
我々は,LLM間の双方向の注目を可能にする,柔軟でプラグアンドプレイな実装であるLULME(Unified framework for Large Language Model Embedding)を紹介した。また,テキスト埋め込みタスクのLLMを向上する新しい微調整手法であるGRL(Generation-augmented Representation Learning)を提案する。フレームワークの柔軟性と有効性を示すために、異なるバックボーンアーキテクチャを持つULLMEから事前訓練された3つのモデルをリリースする。
論文参考訳（メタデータ） (2024-08-06T18:53:54Z)
PyBench: Evaluating LLM Agent on various real-world coding tasks [13.347173063163138]
PyBenchは、現実世界のタスクの5つの主要なカテゴリをカバーするベンチマークで、10種類以上のファイルをカバーする。我々の評価は、現在のオープンソースLLMがこれらのタスクに苦戦していることを示している。微調整された8Bサイズモデル: textbfPyLlama3はPyBench上でエキサイティングなパフォーマンスを実現します。
論文参考訳（メタデータ） (2024-07-23T15:23:14Z)
NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window? [37.64593022203498]
NeedleBenchは、バイリンガルの長期コンテキスト能力を評価するための、徐々に難しいタスクからなるフレームワークである。私たちはこのフレームワークを使って、主要なオープンソースモデルがその疑問に関連する重要な情報をどの程度正確に特定できるかを評価する。本稿では,実世界の長文タスクに現れる可能性の高い論理的推論課題の複雑さを模倣するAncestral Trace Challengeを提案する。
論文参考訳（メタデータ） (2024-07-16T17:59:06Z)
LongIns: A Challenging Long-context Instruction-based Exam for LLMs [44.51209510772957]
大規模言語モデル(LLM)の長いコンテキスト能力は近年ホットな話題となっている。本稿ではLongInsベンチマークデータセットを提案する。
論文参考訳（メタデータ） (2024-06-25T14:31:26Z)
BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文参考訳（メタデータ） (2024-06-22T15:52:04Z)
Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。 Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。 Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文参考訳（メタデータ） (2024-04-09T17:30:48Z)
ERBench: An Entity-Relationship based Automatically Verifiable Hallucination Benchmark for Large Language Models [46.07900122810749]
大規模言語モデル(LLM)は、様々なアプリケーションで前例のない性能を達成したが、評価は依然として難しい。既存のリレーショナルデータベースを利用することは、ベンチマークを構築する上で有望なアプローチである、と我々は主張する。我々は,これらの整合性制約を用いて任意のデータベースをLLMベンチマークに変換するERBenchを提案する。
論文参考訳（メタデータ） (2024-03-08T12:42:36Z)
PPTC-R benchmark: Towards Evaluating the Robustness of Large Language Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。 GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文参考訳（メタデータ） (2024-03-06T15:33:32Z)
PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task Completion [96.47420221442397]
我々はPowerPoint Task Completionベンチマークを導入し、大規模言語モデルがマルチターン・マルチモーダル命令を完了する能力を評価する。また,ラベルAPIシーケンスではなく,予測ファイルに基づいてLCMが命令を終了するかどうかを評価するPTX-Match評価システムを提案する。その結果、GPT-4はシングルターン対話テストにおいて75.1%の精度で他のLLMよりも優れていたが、セッション全体を完成させる際の課題に直面しており、セッションの精度は6%に過ぎなかった。
論文参考訳（メタデータ） (2023-11-03T08:06:35Z)
Learning to Retrieve In-Context Examples for Large Language Models [69.9707552694766]
大規模言語モデル(LLM)は、文脈内で学習する能力を示している。文脈内学習の有効性は、選択した例の品質に大きく依存する。高品質なインコンテキストの例を識別可能な高密度検索を反復的に学習する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2023-07-14T05:23:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。