論文の概要: UltraEval: A Lightweight Platform for Flexible and Comprehensive Evaluation for LLMs
- arxiv url: http://arxiv.org/abs/2404.07584v1
- Date: Thu, 11 Apr 2024 09:17:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 14:29:24.105485
- Title: UltraEval: A Lightweight Platform for Flexible and Comprehensive Evaluation for LLMs
- Title(参考訳): UltraEval: LLMのフレキシブルで総合的な評価のための軽量プラットフォーム
- Authors: Chaoqun He, Renjie Luo, Shengding Hu, Yuanqian Zhao, Jie Zhou, Hanghao Wu, Jiajie Zhang, Xu Han, Zhiyuan Liu, Maosong Sun,
- Abstract要約: 本稿では,軽量,包括性,モジュール性,効率性を特徴とするユーザフレンドリーな評価フレームワークであるUltraEvalを紹介する。
その結果のコンポーザビリティにより、統一された評価ワークフロー内で、さまざまなモデル、タスク、プロンプト、メトリクスを自由に組み合わせることができる。
- 参考スコア(独自算出の注目度): 74.1976921342982
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluation is pivotal for honing Large Language Models (LLMs), pinpointing their capabilities and guiding enhancements. The rapid development of LLMs calls for a lightweight and easy-to-use framework for swift evaluation deployment. However, due to the various implementation details to consider, developing a comprehensive evaluation platform is never easy. Existing platforms are often complex and poorly modularized, hindering seamless incorporation into researcher's workflows. This paper introduces UltraEval, a user-friendly evaluation framework characterized by lightweight, comprehensiveness, modularity, and efficiency. We identify and reimplement three core components of model evaluation (models, data, and metrics). The resulting composability allows for the free combination of different models, tasks, prompts, and metrics within a unified evaluation workflow. Additionally, UltraEval supports diverse models owing to a unified HTTP service and provides sufficient inference acceleration. UltraEval is now available for researchers publicly~\footnote{Website is at \url{https://github.com/OpenBMB/UltraEval}}.
- Abstract(参考訳): 評価は、LLM(Large Language Models)をホーミングし、その能力を特定し、拡張を導く上で重要である。
LLMの迅速な開発は、迅速な評価デプロイメントのための軽量で使いやすいフレームワークを求めている。
しかし、様々な実装の詳細を考慮する必要があるため、総合的な評価プラットフォームの開発は決して容易ではない。
既存のプラットフォームはしばしば複雑でモジュール化が不十分で、研究者のワークフローにシームレスに組み込むのを妨げる。
本稿では,軽量,包括性,モジュール性,効率性を特徴とするユーザフレンドリーな評価フレームワークであるUltraEvalを紹介する。
モデル評価(モデル、データ、メトリクス)の3つのコアコンポーネントを特定し、再実装します。
その結果のコンポーザビリティにより、統一された評価ワークフロー内で、さまざまなモデル、タスク、プロンプト、メトリクスを自由に組み合わせることができる。
さらにUltraEvalは、統一HTTPサービスによる多様なモデルをサポートし、十分な推論アクセラレーションを提供する。
UltraEvalは現在、研究者向けに公開されている。\footnote{Website is at \url{https://github.com/OpenBMB/UltraEval}}。
関連論文リスト
- EasyJudge: an Easy-to-use Tool for Comprehensive Response Evaluation of LLMs [6.179084469089114]
本稿では,重要な言語モデル応答を評価するために開発された EasyJudge を提案する。
軽量で、正確で、効率的で、ユーザフレンドリで、デプロイや使用が容易な、直感的な視覚化インターフェースを備えている。
論文 参考訳(メタデータ) (2024-10-13T08:24:12Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - LLMBox: A Comprehensive Library for Large Language Models [109.15654830320553]
本稿では,大規模言語モデル (LLM) の開発, 使用, 評価を容易にするために, 包括的で統一されたライブラリ LLMBox を提案する。
このライブラリには,(1)多様なトレーニング戦略の柔軟な実装を支援する統一データインターフェース,(2)広範囲なタスクやデータセット,モデルをカバーする包括的な評価,(3)ユーザフレンドリさや効率性など,より実践的な考慮,という3つのメリットがある。
論文 参考訳(メタデータ) (2024-07-08T02:39:33Z) - FreeEval: A Modular Framework for Trustworthy and Efficient Evaluation of Large Language Models [36.273451767886726]
FreeEvalは、大規模言語モデルの信頼性と効率的な自動評価を可能にするために設計された、モジュール化されたスケーラブルなフレームワークである。
FreeEvalの統一された抽象化は、統合を単純化し、多様な評価方法論の透明性を改善します。
このフレームワークは、人間の評価やデータ汚染検出などのメタ評価技術を統合し、動的評価モジュールとともに、評価結果の公平性を高める。
論文 参考訳(メタデータ) (2024-04-09T04:17:51Z) - Evalverse: Unified and Accessible Library for Large Language Model Evaluation [8.49602675597486]
EvalverseはLarge Language Models (LLMs) の評価を効率化する新しいライブラリである。
Evalverseは、人工知能に関する限られた知識を持つ個人がLLMの評価を簡単に要求し、詳細な報告を受け取ることを可能にする。
Evalverseのデモビデオを公開し、その機能と実装を2分間のフォーマットで示す。
論文 参考訳(メタデータ) (2024-04-01T06:03:39Z) - Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM
Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。
マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。
我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文 参考訳(メタデータ) (2024-02-18T03:40:06Z) - ReForm-Eval: Evaluating Large Vision Language Models via Unified
Re-Formulation of Task-Oriented Benchmarks [76.25209974199274]
大規模視覚言語モデル(LVLM)は、視覚信号を知覚し、視覚的根拠を持つ推論を行う驚くべき能力を示す。
当社のベンチマークおよび評価フレームワークは,LVLMの開発を進めるための基盤としてオープンソース化される予定である。
論文 参考訳(メタデータ) (2023-10-04T04:07:37Z) - FedScale: Benchmarking Model and System Performance of Federated
Learning [4.1617240682257925]
FedScaleは、連邦学習(FL)研究のための、挑戦的で現実的なベンチマークデータセットのセットである。
FedScaleはオープンソースで、寛容なライセンスを持ち、積極的にメンテナンスされている。
論文 参考訳(メタデータ) (2021-05-24T15:55:27Z) - MLModelScope: A Distributed Platform for Model Evaluation and
Benchmarking at Scale [32.62513495487506]
機械学習(ML)とディープラーニング(DL)のイノベーションは急速に導入され、研究者はそれらを分析して研究することが難しくなっている。
ML/DL評価の標準化と提供方法の欠如とともに、イノベーションを評価するための複雑な手続きは、コミュニティにとって大きな「痛点」である。
本稿では,MLModelScopeを提案する。MLModelScopeは,フレームワークやハードウェアに依存しない,カスタマイズ可能な設計で,反復可能で公平でスケーラブルなモデル評価とベンチマークを可能にする。
論文 参考訳(メタデータ) (2020-02-19T17:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。