論文の概要: UltraEval: A Lightweight Platform for Flexible and Comprehensive Evaluation for LLMs
- arxiv url: http://arxiv.org/abs/2404.07584v1
- Date: Thu, 11 Apr 2024 09:17:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 14:29:24.105485
- Title: UltraEval: A Lightweight Platform for Flexible and Comprehensive Evaluation for LLMs
- Title(参考訳): UltraEval: LLMのフレキシブルで総合的な評価のための軽量プラットフォーム
- Authors: Chaoqun He, Renjie Luo, Shengding Hu, Yuanqian Zhao, Jie Zhou, Hanghao Wu, Jiajie Zhang, Xu Han, Zhiyuan Liu, Maosong Sun,
- Abstract要約: 本稿では,軽量,包括性,モジュール性,効率性を特徴とするユーザフレンドリーな評価フレームワークであるUltraEvalを紹介する。
その結果のコンポーザビリティにより、統一された評価ワークフロー内で、さまざまなモデル、タスク、プロンプト、メトリクスを自由に組み合わせることができる。
- 参考スコア(独自算出の注目度): 74.1976921342982
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluation is pivotal for honing Large Language Models (LLMs), pinpointing their capabilities and guiding enhancements. The rapid development of LLMs calls for a lightweight and easy-to-use framework for swift evaluation deployment. However, due to the various implementation details to consider, developing a comprehensive evaluation platform is never easy. Existing platforms are often complex and poorly modularized, hindering seamless incorporation into researcher's workflows. This paper introduces UltraEval, a user-friendly evaluation framework characterized by lightweight, comprehensiveness, modularity, and efficiency. We identify and reimplement three core components of model evaluation (models, data, and metrics). The resulting composability allows for the free combination of different models, tasks, prompts, and metrics within a unified evaluation workflow. Additionally, UltraEval supports diverse models owing to a unified HTTP service and provides sufficient inference acceleration. UltraEval is now available for researchers publicly~\footnote{Website is at \url{https://github.com/OpenBMB/UltraEval}}.
- Abstract(参考訳): 評価は、LLM(Large Language Models)をホーミングし、その能力を特定し、拡張を導く上で重要である。
LLMの迅速な開発は、迅速な評価デプロイメントのための軽量で使いやすいフレームワークを求めている。
しかし、様々な実装の詳細を考慮する必要があるため、総合的な評価プラットフォームの開発は決して容易ではない。
既存のプラットフォームはしばしば複雑でモジュール化が不十分で、研究者のワークフローにシームレスに組み込むのを妨げる。
本稿では,軽量,包括性,モジュール性,効率性を特徴とするユーザフレンドリーな評価フレームワークであるUltraEvalを紹介する。
モデル評価(モデル、データ、メトリクス)の3つのコアコンポーネントを特定し、再実装します。
その結果のコンポーザビリティにより、統一された評価ワークフロー内で、さまざまなモデル、タスク、プロンプト、メトリクスを自由に組み合わせることができる。
さらにUltraEvalは、統一HTTPサービスによる多様なモデルをサポートし、十分な推論アクセラレーションを提供する。
UltraEvalは現在、研究者向けに公開されている。\footnote{Website is at \url{https://github.com/OpenBMB/UltraEval}}。
関連論文リスト
- FreeEval: A Modular Framework for Trustworthy and Efficient Evaluation of Large Language Models [36.273451767886726]
FreeEvalは、大規模言語モデルの信頼性と効率的な自動評価を可能にするために設計された、モジュール化されたスケーラブルなフレームワークである。
FreeEvalの統一された抽象化は、統合を単純化し、多様な評価方法論の透明性を改善します。
このフレームワークは、人間の評価やデータ汚染検出などのメタ評価技術を統合し、動的評価モジュールとともに、評価結果の公平性を高める。
論文 参考訳(メタデータ) (2024-04-09T04:17:51Z) - Evalverse: Unified and Accessible Library for Large Language Model Evaluation [8.49602675597486]
EvalverseはLarge Language Models (LLMs) の評価を効率化する新しいライブラリである。
Evalverseは、人工知能に関する限られた知識を持つ個人がLLMの評価を簡単に要求し、詳細な報告を受け取ることを可能にする。
Evalverseのデモビデオを公開し、その機能と実装を2分間のフォーマットで示す。
論文 参考訳(メタデータ) (2024-04-01T06:03:39Z) - DevBench: A Comprehensive Benchmark for Software Development [72.24266814625685]
DevBenchは、ソフトウェア開発ライフサイクルのさまざまな段階にわたる大規模言語モデル(LLM)を評価するベンチマークである。
GPT-4-Turboを含む現在のLLMは、DevBench内での課題の解決に失敗している。
本研究は,LLMを現実のプログラミングアプリケーションに展開する上で,現実的な知見を提供するものである。
論文 参考訳(メタデータ) (2024-03-13T15:13:44Z) - PromptBench: A Unified Library for Evaluation of Large Language Models [33.795013666838024]
大規模言語モデル(LLM)を評価する統合ライブラリであるPromptBenchを紹介する。
プロンプト構築、プロンプトエンジニアリング、データセットとモデルのローディング、敵のプロンプトアタック、動的評価プロトコル、分析ツールなど、研究者が使いやすく拡張した重要なコンポーネントで構成されている。
論文 参考訳(メタデータ) (2023-12-13T05:58:34Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - ML-Bench: Evaluating Large Language Models for Code Generation in Repository-Level Machine Learning Tasks [76.85930757493409]
大規模言語モデル(LLM)は、コード生成ベンチマークの習熟度を示しているが、これらの結果を実用的な開発シナリオに変換することは依然として難しい。
ML-Benchは、レポジトリレベルのオープンソースライブラリを統合して機械学習タスクを完了させるLLMの機能を評価するために設計された、新しいベンチマークである。
以上の結果から, GPT-4は他のLSMよりも優れており, 課題の複雑さを浮き彫りにしたタスクは33.82%に過ぎなかった。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - ReForm-Eval: Evaluating Large Vision Language Models via Unified
Re-Formulation of Task-Oriented Benchmarks [76.25209974199274]
大規模視覚言語モデル(LVLM)は、視覚信号を知覚し、視覚的根拠を持つ推論を行う驚くべき能力を示す。
当社のベンチマークおよび評価フレームワークは,LVLMの開発を進めるための基盤としてオープンソース化される予定である。
論文 参考訳(メタデータ) (2023-10-04T04:07:37Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z) - FedScale: Benchmarking Model and System Performance of Federated
Learning [4.1617240682257925]
FedScaleは、連邦学習(FL)研究のための、挑戦的で現実的なベンチマークデータセットのセットである。
FedScaleはオープンソースで、寛容なライセンスを持ち、積極的にメンテナンスされている。
論文 参考訳(メタデータ) (2021-05-24T15:55:27Z) - MLModelScope: A Distributed Platform for Model Evaluation and
Benchmarking at Scale [32.62513495487506]
機械学習(ML)とディープラーニング(DL)のイノベーションは急速に導入され、研究者はそれらを分析して研究することが難しくなっている。
ML/DL評価の標準化と提供方法の欠如とともに、イノベーションを評価するための複雑な手続きは、コミュニティにとって大きな「痛点」である。
本稿では,MLModelScopeを提案する。MLModelScopeは,フレームワークやハードウェアに依存しない,カスタマイズ可能な設計で,反復可能で公平でスケーラブルなモデル評価とベンチマークを可能にする。
論文 参考訳(メタデータ) (2020-02-19T17:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。