論文の概要: OpsEval: A Comprehensive IT Operations Benchmark Suite for Large
Language Models
- arxiv url: http://arxiv.org/abs/2310.07637v3
- Date: Fri, 16 Feb 2024 08:17:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 20:21:46.938139
- Title: OpsEval: A Comprehensive IT Operations Benchmark Suite for Large
Language Models
- Title(参考訳): OpsEval: 大規模言語モデルのための総合的なIT運用ベンチマークスイート
- Authors: Yuhe Liu, Changhua Pei, Longlong Xu, Bohan Chen, Mingze Sun, Zhirui
Zhang, Yongqian Sun, Shenglin Zhang, Kun Wang, Haiming Zhang, Jianhui Li,
Gaogang Xie, Xidao Wen, Xiaohui Nie, Minghua Ma, Dan Pei
- Abstract要約: 大規模言語モデル(LLM)用に設計された総合的なタスク指向のOpsベンチマークであるOpsEvalを提示する。
このベンチマークには、英語と中国語で7184の質問と1736の質問回答(QA)形式が含まれている。
評価の信頼性を確保するため、何十人ものドメインエキスパートを招待して、質問を手動でレビューします。
- 参考スコア(独自算出の注目度): 27.098628890605593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Information Technology (IT) Operations (Ops), particularly Artificial
Intelligence for IT Operations (AIOps), is the guarantee for maintaining the
orderly and stable operation of existing information systems. According to
Gartner's prediction, the use of AI technology for automated IT operations has
become a new trend. Large language models (LLMs) that have exhibited remarkable
capabilities in NLP-related tasks, are showing great potential in the field of
AIOps, such as in aspects of root cause analysis of failures, generation of
operations and maintenance scripts, and summarizing of alert information.
Nevertheless, the performance of current LLMs in Ops tasks is yet to be
determined. In this paper, we present OpsEval, a comprehensive task-oriented
Ops benchmark designed for LLMs. For the first time, OpsEval assesses LLMs'
proficiency in various crucial scenarios at different ability levels. The
benchmark includes 7184 multi-choice questions and 1736 question-answering (QA)
formats in English and Chinese. By conducting a comprehensive performance
evaluation of the current leading large language models, we show how various
LLM techniques can affect the performance of Ops, and discussed findings
related to various topics, including model quantification, QA evaluation, and
hallucination issues. To ensure the credibility of our evaluation, we invite
dozens of domain experts to manually review our questions. At the same time, we
have open-sourced 20% of the test QA to assist current researchers in
preliminary evaluations of their OpsLLM models. The remaining 80% of the data,
which is not disclosed, is used to eliminate the issue of the test set leakage.
Additionally, we have constructed an online leaderboard that is updated in
real-time and will continue to be updated, ensuring that any newly emerging
LLMs will be evaluated promptly. Both our dataset and leaderboard have been
made public.
- Abstract(参考訳): 情報技術(IT)運用(Ops)、特にIT運用のための人工知能(AIOps)は、既存の情報システムの秩序的で安定した運用を維持するための保証である。
Gartnerの予測によると、自動化ITオペレーションにおけるAIテクノロジの利用は新しいトレンドになっている。
NLP関連のタスクで顕著な能力を発揮した大規模言語モデル(LLM)は、障害の根本原因分析、オペレーションの生成とメンテナンススクリプトの生成、アラート情報の要約など、AIOpsの分野で大きな可能性を示している。
しかし、Opsタスクにおける現在のLLMのパフォーマンスはまだ決定されていない。
本稿では,LLM向けに設計されたタスク指向OpsベンチマークであるOpsEvalを提案する。
OpsEvalは、さまざまな能力レベルの重要なシナリオにおいて、LLMの習熟度を初めて評価する。
ベンチマークには、英語と中国語の7184のマルチチョイス質問と1736のqwering(qa)形式が含まれている。
本研究では,現在主流となっている大規模言語モデルの総合的な性能評価を行い,様々なllm手法が運用性能に与える影響を示し,モデル定量化,qa評価,幻覚的問題など様々な話題に関連する知見について考察した。
評価の信頼性を確保するため、何十人ものドメイン専門家を招き、手動で質問をレビューします。
同時に、テストQAの20%をオープンソースとして公開し、現在の研究者がOpsLLMモデルの事前評価を行うのを支援しています。
残りの80%は公開されていないが、テストセットのリークの問題を除去するために使用される。
さらに、私たちはオンラインのリーダーボードを構築しました。これはリアルタイムで更新され、更新を続けます。
私たちのデータセットとleaderboardはどちらも公開されています。
関連論文リスト
- Judging the Judges: A Collection of LLM-Generated Relevance Judgements [37.103230004631996]
本稿では,SIGIR 2024におけるLLMJudgeの大規模自動妥当性評価の結果をベンチマークし,報告する。
8つの国際チームが作成したTREC 2023ディープラーニングトラック関連判定のラベルを42 LLMで作成し、ベンチマークする。
論文 参考訳(メタデータ) (2025-02-19T17:40:32Z) - Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents [57.4686961979566]
EmbodiedEvalは、組み込みタスクを持つMLLMの総合的かつインタラクティブな評価ベンチマークである。
多様性が大幅に向上した既存のAIタスクの幅広い範囲をカバーする。
EmbodiedEval における最先端MLLM の評価を行い,人体作業における人体レベルと比較して有意に不足していることがわかった。
論文 参考訳(メタデータ) (2025-01-21T03:22:10Z) - Evaluating LLM Reasoning in the Operations Research Domain with ORQA [19.72699080797411]
我々は,大規模言語モデル(LLM)の一般化能力を評価するために設計された新しいベンチマークであるOperations Research Question Answering(ORQA)を導入し,適用する。
このデータセットは、数学モデルを構築するために多段階推論を必要とする実世界の最適化問題を特徴としている。
LLaMA 3.1、DeepSeek、MixtralなどのオープンソースLLMの評価では、その質素な性能が明らかにされ、専門技術ドメインへの一般化能力のギャップが浮かび上がっている。
論文 参考訳(メタデータ) (2024-12-22T09:10:34Z) - A Real-World Benchmark for Evaluating Fine-Grained Issue Solving Capabilities of Large Language Models [11.087034068992653]
FAUN-Eval は LLM の Fine-grAined issUe solviNg 機能を評価するために特別に設計されたベンチマークである。
30の有名なGitHubリポジトリからキュレートされたデータセットを使って構築されている。
FAUN-Evalでは,4つのクローズドソースモデルと6つのオープンソースモデルを含む10個のLLMを評価した。
論文 参考訳(メタデータ) (2024-11-27T03:25:44Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - DCA-Bench: A Benchmark for Dataset Curation Agents [9.60250892491588]
隠れたデータセットの品質問題を検知する大規模言語モデルの能力を測定するために,データセットキュレーションエージェントベンチマークであるDCA-Benchを提案する。
具体的には、テストベッドとして8つのオープンデータセットプラットフォームから、さまざまな実世界のデータセット品質の問題を収集します。
提案したベンチマークは、単に問題解決を行うのではなく、問題発見におけるLLMの能力を測定するためのテストベッドとしても機能する。
論文 参考訳(メタデータ) (2024-06-11T14:02:23Z) - Towards leveraging LLMs for Conditional QA [1.9649272351760063]
本研究では,条件付き質問応答の挑戦領域におけるLarge Language Models(LLM)の機能と限界について考察する。
これらの結果から,全ての入力コンテキストを完全にエンコードすることなく,微調整LDMがSOTA(State-of-the-art (SOTA))性能を上回ることが判明した。
これらのモデルは、抽出された質問応答において、SOTAを10ポイント以上遅れる問題に遭遇し、偽情報を注入するリスクを軽減する。
論文 参考訳(メタデータ) (2023-12-02T14:02:52Z) - AI for IT Operations (AIOps) on Cloud Platforms: Reviews, Opportunities
and Challenges [60.56413461109281]
IT運用のための人工知能(AIOps)は、AIのパワーとIT運用プロセスが生成するビッグデータを組み合わせることを目的としている。
我々は、IT運用活動が発信する重要なデータの種類、分析における規模と課題、そしてどのように役立つかについて深く議論する。
主要なAIOpsタスクは、インシデント検出、障害予測、根本原因分析、自動アクションに分類します。
論文 参考訳(メタデータ) (2023-04-10T15:38:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。