論文の概要: OmniEvalKit: A Modular, Lightweight Toolbox for Evaluating Large Language Model and its Omni-Extensions
- arxiv url: http://arxiv.org/abs/2412.06693v1
- Date: Mon, 09 Dec 2024 17:39:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:59:17.899352
- Title: OmniEvalKit: A Modular, Lightweight Toolbox for Evaluating Large Language Model and its Omni-Extensions
- Title(参考訳): OmniEvalKit: 大規模言語モデルとOmni-Extensionsを評価するためのモジュール式軽量ツールボックス
- Authors: Yi-Kai Zhang, Xu-Xiang Zhong, Shiyin Lu, Qing-Guo Chen, De-Chuan Zhan, Han-Jia Ye,
- Abstract要約: 我々は,Large Language Models (LLMs) を評価するために設計された,新しいベンチマークツールボックスであるOmniEvalKitを紹介する。
単一の側面にフォーカスする既存のベンチマークとは異なり、OmniEvalKitはモジュール化され、軽量で、自動評価システムを提供する。
Static BuilderとDynamic Data Flowで構成されるモジュールアーキテクチャで構成されており、新しいモデルとデータセットのシームレスな統合を促進する。
- 参考スコア(独自算出の注目度): 58.46747176834132
- License:
- Abstract: The rapid advancements in Large Language Models (LLMs) have significantly expanded their applications, ranging from multilingual support to domain-specific tasks and multimodal integration. In this paper, we present OmniEvalKit, a novel benchmarking toolbox designed to evaluate LLMs and their omni-extensions across multilingual, multidomain, and multimodal capabilities. Unlike existing benchmarks that often focus on a single aspect, OmniEvalKit provides a modular, lightweight, and automated evaluation system. It is structured with a modular architecture comprising a Static Builder and Dynamic Data Flow, promoting the seamless integration of new models and datasets. OmniEvalKit supports over 100 LLMs and 50 evaluation datasets, covering comprehensive evaluations across thousands of model-dataset combinations. OmniEvalKit is dedicated to creating an ultra-lightweight and fast-deployable evaluation framework, making downstream applications more convenient and versatile for the AI community.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、多言語サポートからドメイン固有のタスク、マルチモーダル統合まで、アプリケーションを大幅に拡張した。
本稿では,多言語,マルチドメイン,マルチモーダル機能にまたがるLLMとその全拡張を評価するために設計された,新しいベンチマークツールボックスであるOmniEvalKitを提案する。
単一の側面にフォーカスする既存のベンチマークとは異なり、OmniEvalKitはモジュール化され、軽量で、自動評価システムを提供する。
Static BuilderとDynamic Data Flowで構成されるモジュールアーキテクチャで構成されており、新しいモデルとデータセットのシームレスな統合を促進する。
OmniEvalKitは100以上のLLMと50の評価データセットをサポートし、数千のモデルとデータセットの組み合わせにわたる包括的な評価をカバーしている。
OmniEvalKitは、超軽量で高速にデプロイ可能な評価フレームワークの作成に特化している。
関連論文リスト
- From LIMA to DeepLIMA: following a new path of interoperability [2.5764171991553795]
本稿では,LIMAフレームワークのアーキテクチャと,深層ニューラルネットワークに基づく新たなテキスト解析モジュールの追加による最近の進化について述べる。
モデルは、Universal Dependencies 2.5 corpora、WikiNer corpora、CoNLL-03データセットで60以上の言語でトレーニングされた。
ユビキタスなディープラーニング自然言語処理モデルの統合と標準アノテーション付きコレクションの使用は、相互運用性の新たなパスと見なすことができる。
論文 参考訳(メタデータ) (2024-09-10T14:26:12Z) - VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models [89.63342806812413]
PyTorchに基づく大規模マルチモーダリティモデルを評価するためのオープンソースツールキットを提案する。
VLMEvalKitは70以上の大規模なマルチモダリティモデルを実装しており、プロプライエタリなAPIとオープンソースモデルの両方を含んでいる。
マルチモーダル学習研究の進展を追跡するために,OpenVLM Leaderboardを主催する。
論文 参考訳(メタデータ) (2024-07-16T13:06:15Z) - UltraEval: A Lightweight Platform for Flexible and Comprehensive Evaluation for LLMs [74.1976921342982]
本稿では,ユーザフレンドリな評価フレームワークであるUltraEvalを紹介し,その軽量性,包括性,モジュール性,効率性を特徴とする。
その結果のコンポーザビリティにより、統一された評価ワークフロー内で、さまざまなモデル、タスク、プロンプト、ベンチマーク、メトリクスを自由に組み合わせることができる。
論文 参考訳(メタデータ) (2024-04-11T09:17:12Z) - SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models [97.40590590880144]
MLLM(Multimodality Large Language Model)シリーズを開発した。
我々は、言語、ビジョン、視覚言語タスクで利用可能なリソースを網羅した包括的なデータセットを組み立てる。
パラメータサイズや多言語能力の異なるMLLMのスペクトルを得る。
論文 参考訳(メタデータ) (2024-02-08T18:59:48Z) - ESPnet-SPK: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models [51.35570730554632]
ESPnet-SPKは、話者埋め込み抽出器を訓練するためのツールキットである。
我々は、x-vectorから最近のSKA-TDNNまで、いくつかのモデルを提供している。
開発モデルと他のドメインとの橋渡しも目指しています。
論文 参考訳(メタデータ) (2024-01-30T18:18:27Z) - LLMeBench: A Flexible Framework for Accelerating LLMs Benchmarking [26.413008616554816]
言語に関係なく,任意のNLPタスクに対してLLM(Large Language Models)を評価するために,シームレスにカスタマイズできるLLMeBenchフレームワークを紹介した。
特定のデータセットとタスクは、20行未満のコードで所定のLLMに対して評価できると同時に、カスタムデータセット、モデル、タスクのためのフレームワークを完全な柔軟性で拡張することができる。
このフレームワークは、約296Kのデータポイントを含む90の実験的なセットアップ内で53の公開データセットを使用して、31のユニークなNLPタスクでテストされている。
論文 参考訳(メタデータ) (2023-08-09T13:22:37Z) - Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and
Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。
Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。
我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文 参考訳(メタデータ) (2023-06-15T12:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。