論文の概要: OpsEval: A Comprehensive Task-Oriented AIOps Benchmark for Large
Language Models
- arxiv url: http://arxiv.org/abs/2310.07637v2
- Date: Thu, 12 Oct 2023 01:53:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 11:12:25.707572
- Title: OpsEval: A Comprehensive Task-Oriented AIOps Benchmark for Large
Language Models
- Title(参考訳): opseval: 大きな言語モデルのための包括的なタスク指向aiopsベンチマーク
- Authors: Yuhe Liu, Changhua Pei, Longlong Xu, Bohan Chen, Mingze Sun, Zhirui
Zhang, Yongqian Sun, Shenglin Zhang, Kun Wang, Haiming Zhang, Jianhui Li,
Gaogang Xie, Xidao Wen, Xiaohui Nie, Dan Pei
- Abstract要約: 大規模言語モデル(LLM)は、翻訳、要約、生成といったNLP関連のタスクにおいて顕著な機能を示した。
LLM向けに設計された包括的なタスク指向AIOpsベンチマークである textbfOpsEval を提示する。
- 参考スコア(独自算出の注目度): 26.445949158137225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have exhibited remarkable capabilities in
NLP-related tasks such as translation, summarizing, and generation. The
application of LLMs in specific areas, notably AIOps (Artificial Intelligence
for IT Operations), holds great potential due to their advanced abilities in
information summarizing, report analyzing, and ability of API calling.
Nevertheless, the performance of current LLMs in AIOps tasks is yet to be
determined. Furthermore, a comprehensive benchmark is required to steer the
optimization of LLMs tailored for AIOps. Compared with existing benchmarks that
focus on evaluating specific fields like network configuration, in this paper,
we present \textbf{OpsEval}, a comprehensive task-oriented AIOps benchmark
designed for LLMs. For the first time, OpsEval assesses LLMs' proficiency in
three crucial scenarios (Wired Network Operation, 5G Communication Operation,
and Database Operation) at various ability levels (knowledge recall, analytical
thinking, and practical application). The benchmark includes 7,200 questions in
both multiple-choice and question-answer (QA) formats, available in English and
Chinese. With quantitative and qualitative results, we show how various LLM
tricks can affect the performance of AIOps, including zero-shot,
chain-of-thought, and few-shot in-context learning. We find that GPT4-score is
more consistent with experts than widely used Bleu and Rouge, which can be used
to replace automatic metrics for large-scale qualitative evaluations.
- Abstract(参考訳): 大規模言語モデル(LLM)は、翻訳、要約、生成といったNLP関連のタスクにおいて顕著な機能を示した。
特定の分野、特にAIOps (Artificial Intelligence for IT Operations) における LLM の応用は、情報要約、レポート分析、API呼び出し能力の高度な能力によって大きな可能性を秘めている。
しかし、aiopsタスクにおける現在のllmのパフォーマンスはまだ決定されていない。
さらに、AIOps用に調整されたLLMの最適化を行うには、包括的なベンチマークが必要である。
本稿では,ネットワーク構成などの特定の分野に注目する既存のベンチマークと比較し,llms用に設計された包括的タスク指向aiopsベンチマークである \textbf{opseval} を提案する。
opsevalは3つの重要なシナリオ(有線ネットワーク操作、5g通信操作、データベース操作)において、様々な能力レベル(知識リコール、分析思考、実践的応用)においてllmsの熟練度を評価する。
ベンチマークには、複数選択と質問回答(QA)形式の7,200の質問が含まれている。
定量的・定性的な結果から,ゼロショット,チェーン・オブ・コンテクスト,マイト・イン・コンテキスト学習など,さまざまなllmトリックがaiopsのパフォーマンスに与える影響を示す。
GPT4スコアは Bleu や Rouge よりも専門家との整合性が高く,大規模定性評価のための自動メトリクスの代替に利用することができる。
関連論文リスト
- MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - DCA-Bench: A Benchmark for Dataset Curation Agents [9.60250892491588]
隠れたデータセットの品質問題を検知する大規模言語モデルの能力を測定するために,データセットキュレーションエージェントベンチマークであるDCA-Benchを提案する。
具体的には、テストベッドとして8つのオープンデータセットプラットフォームから、さまざまな実世界のデータセット品質の問題を収集します。
提案したベンチマークは、単に問題解決を行うのではなく、問題発見におけるLLMの能力を測定するためのテストベッドとしても機能する。
論文 参考訳(メタデータ) (2024-06-11T14:02:23Z) - Tasks People Prompt: A Taxonomy of LLM Downstream Tasks in Software Verification and Falsification Approaches [2.687757575672707]
我々は、分類、マッピング、分析を行うための新しい下流タスク分類法を開発した。
主な分類基準は、タスクタイプの変動点を示しながら、共通点を強調することである。
論文 参考訳(メタデータ) (2024-04-14T23:45:23Z) - Towards leveraging LLMs for Conditional QA [1.9649272351760063]
本研究では,条件付き質問応答の挑戦領域におけるLarge Language Models(LLM)の機能と限界について考察する。
これらの結果から,全ての入力コンテキストを完全にエンコードすることなく,微調整LDMがSOTA(State-of-the-art (SOTA))性能を上回ることが判明した。
これらのモデルは、抽出された質問応答において、SOTAを10ポイント以上遅れる問題に遭遇し、偽情報を注入するリスクを軽減する。
論文 参考訳(メタデータ) (2023-12-02T14:02:52Z) - BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。
異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。
評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文 参考訳(メタデータ) (2023-10-24T12:18:17Z) - OWL: A Large Language Model for IT Operations [40.88170785586197]
我々は、収集したOWL-Instructデータセットに基づいて訓練された大規模な言語モデルOWLを紹介する。
OWL-BenchにおけるOWLの性能評価とIT関連ベンチマークのオープン化について検討した。
論文 参考訳(メタデータ) (2023-09-17T15:19:29Z) - Instruction Tuning for Large Language Models: A Survey [52.86322823501338]
本稿では,インストラクションチューニング(IT)の急速な発展分野における研究成果について調査する。
本稿では、指定しない場合を除き、命令チューニング(IT)は教師付き微調整(SFT)と等価である。
論文 参考訳(メタデータ) (2023-08-21T15:35:16Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z) - AI for IT Operations (AIOps) on Cloud Platforms: Reviews, Opportunities
and Challenges [60.56413461109281]
IT運用のための人工知能(AIOps)は、AIのパワーとIT運用プロセスが生成するビッグデータを組み合わせることを目的としている。
我々は、IT運用活動が発信する重要なデータの種類、分析における規模と課題、そしてどのように役立つかについて深く議論する。
主要なAIOpsタスクは、インシデント検出、障害予測、根本原因分析、自動アクションに分類します。
論文 参考訳(メタデータ) (2023-04-10T15:38:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。