論文の概要: Enterprise Benchmarks for Large Language Model Evaluation
- arxiv url: http://arxiv.org/abs/2410.12857v1
- Date: Fri, 11 Oct 2024 18:19:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:21:24.038533
- Title: Enterprise Benchmarks for Large Language Model Evaluation
- Title(参考訳): 大規模言語モデル評価のためのエンタープライズベンチマーク
- Authors: Bing Zhang, Mikio Takeuchi, Ryo Kawahara, Shubhi Asthana, Md. Maruf Hossain, Guang-Jie Ren, Kate Soule, Yada Zhu,
- Abstract要約: 本研究は,大規模言語モデル (LLM) 評価に適したベンチマーク戦略を体系的に検討する。
提案された評価フレームワークは、金融サービス、法律、サイバーセキュリティ、気候と持続可能性など、さまざまなエンタープライズドメインから利用可能な25のデータセットを含んでいる。
異なるエンタープライズタスクにわたる13モデルの多種多様なパフォーマンスは、各タスクの特定の要求に基づいて適切なモデルを選択することの重要性を強調します。
- 参考スコア(独自算出の注目度): 10.233863135015797
- License:
- Abstract: The advancement of large language models (LLMs) has led to a greater challenge of having a rigorous and systematic evaluation of complex tasks performed, especially in enterprise applications. Therefore, LLMs need to be able to benchmark enterprise datasets for various tasks. This work presents a systematic exploration of benchmarking strategies tailored to LLM evaluation, focusing on the utilization of domain-specific datasets and consisting of a variety of NLP tasks. The proposed evaluation framework encompasses 25 publicly available datasets from diverse enterprise domains like financial services, legal, cyber security, and climate and sustainability. The diverse performance of 13 models across different enterprise tasks highlights the importance of selecting the right model based on the specific requirements of each task. Code and prompts are available on GitHub.
- Abstract(参考訳): 大規模言語モデル(LLM)の進歩は、特にエンタープライズアプリケーションにおいて実行される複雑なタスクを厳格かつ体系的に評価することの難しさを招いている。
したがって、LLMは様々なタスクのエンタープライズデータセットをベンチマークする必要がある。
本研究は、LLM評価に適したベンチマーク戦略を体系的に探求し、ドメイン固有のデータセットの利用に焦点をあて、様々なNLPタスクからなる。
提案された評価フレームワークは、金融サービス、法律、サイバーセキュリティ、気候と持続可能性など、さまざまなエンタープライズドメインから利用可能な25のデータセットを含んでいる。
異なるエンタープライズタスクにわたる13モデルの多種多様なパフォーマンスは、各タスクの特定の要求に基づいて適切なモデルを選択することの重要性を強調します。
コードとプロンプトはGitHubで入手できる。
関連論文リスト
- Evalita-LLM: Benchmarking Large Language Models on Italian [3.3334839725239798]
Evalita-LLM(エヴァリタ-LLM)は、イタリア語のタスクでLarge Language Models(LLM)を評価するために設計されたベンチマークである。
すべてのタスクはネイティブなイタリア語であり、イタリア語からの翻訳の問題や潜在的な文化的偏見を避ける。
ベンチマークには生成タスクが含まれており、LLMとのより自然なインタラクションを可能にする。
論文 参考訳(メタデータ) (2025-02-04T12:58:19Z) - EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents [57.4686961979566]
EmbodiedEvalは、組み込みタスクを持つMLLMの総合的かつインタラクティブな評価ベンチマークである。
多様性が大幅に向上した既存のAIタスクの幅広い範囲をカバーする。
EmbodiedEval における最先端MLLM の評価を行い,人体作業における人体レベルと比較して有意に不足していることがわかった。
論文 参考訳(メタデータ) (2025-01-21T03:22:10Z) - Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework [81.29965270493238]
我々は,無線通信アプリケーションのための大規模言語モデル(LLM)の評価と微調整を目的とした,特殊なデータセットを開発した。
データセットには、真/偽と複数選択型を含む、さまざまなマルチホップ質問が含まれている。
本稿では,PVI(Pointwise V-Information)に基づく微調整手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T16:19:53Z) - INVESTORBENCH: A Benchmark for Financial Decision-Making Tasks with LLM-based Agent [15.562784986263654]
InvestorBenchは、大規模言語モデル(LLM)ベースのエージェントを財務的な意思決定コンテキストで評価するためのベンチマークである。
株式、暗号通貨、ETFなどの単一株式を含む、さまざまな金融商品に適用可能な包括的なタスクスイートを提供する。
また,13種類のLDMをバックボーンモデルとして,エージェントフレームワークの推論と意思決定能力の評価を行った。
論文 参考訳(メタデータ) (2024-12-24T05:22:33Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Personalized Multimodal Large Language Models: A Survey [127.9521218125761]
マルチモーダル大言語モデル(MLLM)は、最先端の性能と複数のデータモダリティを統合する能力により、ますます重要になっている。
本稿では,パーソナライズされたマルチモーダルな大規模言語モデルに関する包括的調査を行い,そのアーキテクチャ,トレーニング方法,アプリケーションに焦点をあてる。
論文 参考訳(メタデータ) (2024-12-03T03:59:03Z) - A Survey on Multimodal Benchmarks: In the Era of Large AI Models [13.299775710527962]
MLLM(Multimodal Large Language Models)は、人工知能に大きな進歩をもたらした。
この調査は、4つのコアドメイン(理解、推論、生成、アプリケーション)にわたるMLLMを評価する211のベンチマークを体系的にレビューする。
論文 参考訳(メタデータ) (2024-09-21T15:22:26Z) - Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。
我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。
既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文 参考訳(メタデータ) (2024-06-11T13:09:16Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。