論文の概要: Enterprise Benchmarks for Large Language Model Evaluation
- arxiv url: http://arxiv.org/abs/2410.12857v1
- Date: Fri, 11 Oct 2024 18:19:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:21:24.038533
- Title: Enterprise Benchmarks for Large Language Model Evaluation
- Title(参考訳): 大規模言語モデル評価のためのエンタープライズベンチマーク
- Authors: Bing Zhang, Mikio Takeuchi, Ryo Kawahara, Shubhi Asthana, Md. Maruf Hossain, Guang-Jie Ren, Kate Soule, Yada Zhu,
- Abstract要約: 本研究は,大規模言語モデル (LLM) 評価に適したベンチマーク戦略を体系的に検討する。
提案された評価フレームワークは、金融サービス、法律、サイバーセキュリティ、気候と持続可能性など、さまざまなエンタープライズドメインから利用可能な25のデータセットを含んでいる。
異なるエンタープライズタスクにわたる13モデルの多種多様なパフォーマンスは、各タスクの特定の要求に基づいて適切なモデルを選択することの重要性を強調します。
- 参考スコア(独自算出の注目度): 10.233863135015797
- License:
- Abstract: The advancement of large language models (LLMs) has led to a greater challenge of having a rigorous and systematic evaluation of complex tasks performed, especially in enterprise applications. Therefore, LLMs need to be able to benchmark enterprise datasets for various tasks. This work presents a systematic exploration of benchmarking strategies tailored to LLM evaluation, focusing on the utilization of domain-specific datasets and consisting of a variety of NLP tasks. The proposed evaluation framework encompasses 25 publicly available datasets from diverse enterprise domains like financial services, legal, cyber security, and climate and sustainability. The diverse performance of 13 models across different enterprise tasks highlights the importance of selecting the right model based on the specific requirements of each task. Code and prompts are available on GitHub.
- Abstract(参考訳): 大規模言語モデル(LLM)の進歩は、特にエンタープライズアプリケーションにおいて実行される複雑なタスクを厳格かつ体系的に評価することの難しさを招いている。
したがって、LLMは様々なタスクのエンタープライズデータセットをベンチマークする必要がある。
本研究は、LLM評価に適したベンチマーク戦略を体系的に探求し、ドメイン固有のデータセットの利用に焦点をあて、様々なNLPタスクからなる。
提案された評価フレームワークは、金融サービス、法律、サイバーセキュリティ、気候と持続可能性など、さまざまなエンタープライズドメインから利用可能な25のデータセットを含んでいる。
異なるエンタープライズタスクにわたる13モデルの多種多様なパフォーマンスは、各タスクの特定の要求に基づいて適切なモデルを選択することの重要性を強調します。
コードとプロンプトはGitHubで入手できる。
関連論文リスト
- A Survey of Small Language Models [104.80308007044634]
小言語モデル (SLM) は, 計算資源の最小化による言語タスクの効率化と性能の向上により, ますます重要になってきている。
本稿では,SLMのアーキテクチャ,トレーニング技術,モデル圧縮技術に着目した総合的な調査を行う。
論文 参考訳(メタデータ) (2024-10-25T23:52:28Z) - ET-Plan-Bench: Embodied Task-level Planning Benchmark Towards Spatial-Temporal Cognition with Foundation Models [39.606908488885125]
ET-Plan-Benchは、Large Language Models (LLMs) を用いたタスク計画の具体化のためのベンチマークである。
様々な難易度や複雑さのレベルにおいて、制御可能で多様な実施タスクが特徴である。
我々のベンチマークでは、大規模で定量化され、高度に自動化され、きめ細かな診断フレームワークとして認識されている。
論文 参考訳(メタデータ) (2024-10-02T19:56:38Z) - Leveraging Long-Context Large Language Models for Multi-Document Understanding and Summarization in Enterprise Applications [1.1682259692399921]
LLM(Long-context Large Language Model)は、広範囲の接続を把握し、結合的な要約を提供し、様々な業界領域に適応することができる。
ケーススタディでは、効率と精度の両方が顕著に向上している。
論文 参考訳(メタデータ) (2024-09-27T05:29:31Z) - A Survey on Multimodal Benchmarks: In the Era of Large AI Models [13.299775710527962]
MLLM(Multimodal Large Language Models)は、人工知能に大きな進歩をもたらした。
この調査は、4つのコアドメイン(理解、推論、生成、アプリケーション)にわたるMLLMを評価する211のベンチマークを体系的にレビューする。
論文 参考訳(メタデータ) (2024-09-21T15:22:26Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - R-Eval: A Unified Toolkit for Evaluating Domain Knowledge of Retrieval Augmented Large Language Models [51.468732121824125]
大規模言語モデルは一般的なNLPタスクにおいて顕著な成功を収めてきたが、ドメイン固有の問題には不足する可能性がある。
既存の評価ツールは、ドメイン知識の深さを掘り下げることなく、いくつかのベースラインを提供し、様々なドメインで評価するのみである。
本稿では、R-Evalツールキット(R-Evalツールキット)を導入し、異なるRAGの評価を合理化することによるALLMの評価の課題に対処する。
論文 参考訳(メタデータ) (2024-06-17T15:59:49Z) - Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。
我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。
既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文 参考訳(メタデータ) (2024-06-11T13:09:16Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z) - Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。
広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。
しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文 参考訳(メタデータ) (2023-05-30T03:00:30Z) - MLM: A Benchmark Dataset for Multitask Learning with Multiple Languages
and Modalities [14.605385352491904]
データセットは、Webやデジタルアーカイブで遭遇したデータ上で複数のタスクを実行するアプリケーションを構築する研究者や開発者のために設計されている。
第2版では、EU加盟国の重み付けされたサンプルとともに、データの地理的表現サブセットを提供する。
論文 参考訳(メタデータ) (2020-08-14T14:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。