論文の概要: Xpert: Empowering Incident Management with Query Recommendations via
Large Language Models
- arxiv url: http://arxiv.org/abs/2312.11988v1
- Date: Tue, 19 Dec 2023 09:30:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 16:13:26.581258
- Title: Xpert: Empowering Incident Management with Query Recommendations via
Large Language Models
- Title(参考訳): Xpert: 大規模言語モデルによるクエリ勧告によるインシデント管理の強化
- Authors: Yuxuan Jiang, Chaoyun Zhang, Shilin He, Zhihao Yang, Minghua Ma, Si
Qin, Yu Kang, Yingnong Dang, Saravan Rajmohan, Qingwei Lin, Dongmei Zhang
- Abstract要約: 本稿では,Microsoftの大規模クラウド管理システムにおいて,インシデント管理に使用されるDSLであるKQLのクエリの利用について検討する。
我々は、KQLレコメンデーションプロセスを自動化するエンドツーエンドの機械学習フレームワークであるXpertを紹介した。
- 参考スコア(独自算出の注目度): 39.73744433173498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale cloud systems play a pivotal role in modern IT infrastructure.
However, incidents occurring within these systems can lead to service
disruptions and adversely affect user experience. To swiftly resolve such
incidents, on-call engineers depend on crafting domain-specific language (DSL)
queries to analyze telemetry data. However, writing these queries can be
challenging and time-consuming. This paper presents a thorough empirical study
on the utilization of queries of KQL, a DSL employed for incident management in
a large-scale cloud management system at Microsoft. The findings obtained
underscore the importance and viability of KQL queries recommendation to
enhance incident management.
Building upon these valuable insights, we introduce Xpert, an end-to-end
machine learning framework that automates KQL recommendation process. By
leveraging historical incident data and large language models, Xpert generates
customized KQL queries tailored to new incidents. Furthermore, Xpert
incorporates a novel performance metric called Xcore, enabling a thorough
evaluation of query quality from three comprehensive perspectives. We conduct
extensive evaluations of Xpert, demonstrating its effectiveness in offline
settings. Notably, we deploy Xpert in the real production environment of a
large-scale incident management system in Microsoft, validating its efficiency
in supporting incident management. To the best of our knowledge, this paper
represents the first empirical study of its kind, and Xpert stands as a
pioneering DSL query recommendation framework designed for incident management.
- Abstract(参考訳): 大規模クラウドシステムは、現代のITインフラにおいて重要な役割を果たす。
しかしながら、これらのシステム内で発生したインシデントは、サービスの障害を引き起こし、ユーザエクスペリエンスに悪影響を及ぼす可能性がある。
このようなインシデントを迅速に解決するには、オンコールエンジニアはテレメトリデータを分析するためにドメイン固有言語(DSL)クエリを作成する必要がある。
しかし、これらのクエリを書くのは困難で時間がかかります。
本稿では,Microsoft の大規模クラウド管理システムにおけるインシデント管理用 DSL である KQL のクエリ利用に関する実証的研究を行った。
その結果、インシデント管理を強化するため、KQLクエリレコメンデーションの重要性と実用性を強調した。
これらの貴重な洞察に基づいて、KQLレコメンデーションプロセスを自動化するエンドツーエンドの機械学習フレームワークであるXpertを紹介します。
過去のインシデントデータと大きな言語モデルを活用することで、Xpertは新しいインシデントに合わせてカスタマイズされたKQLクエリを生成する。
さらに、XpertはXcoreと呼ばれる新しいパフォーマンス指標を導入し、3つの総合的な視点からクエリ品質の徹底的な評価を可能にした。
我々はxpertを広範囲に評価し,オフライン環境での有効性を示す。
特に,microsoft の大規模インシデント管理システムの実運用環境に xpert をデプロイし,インシデント管理を支援する上での効率性を検証する。
我々の知る限り、本論文はこの種の実証的研究としては初めてのものであり、Xpertはインシデント管理用に設計されたDSLクエリレコメンデーションフレームワークである。
関連論文リスト
- Context Awareness Gate For Retrieval Augmented Generation [2.749898166276854]
Retrieval Augmented Generation (RAG) は、大規模言語モデル(LLM)の限界を軽減し、ドメイン固有の質問に答える手段として広く採用されている。
これまでの研究は主に、取得したデータチャンクの精度と品質を改善し、生成パイプライン全体のパフォーマンスを向上させることに重点を置いてきた。
オープンドメイン質問応答における無関係情報検索の効果について検討し,LLM出力の品質に対する顕著な有害な影響を明らかにする。
論文 参考訳(メタデータ) (2024-11-25T06:48:38Z) - XMainframe: A Large Language Model for Mainframe Modernization [5.217282407759193]
メインフレームオペレーティングシステムは、金融や政府といった重要なセクターをサポートし続けている。
これらのシステムは時代遅れと見なされ、大規模な保守と近代化を必要としている。
我々は,レガシシステムやメインフレームの知識に特化して設計された,最先端の大規模言語モデル(LLM)であるXMainframeを紹介した。
論文 参考訳(メタデータ) (2024-08-05T20:01:10Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - Exploring LLM-based Agents for Root Cause Analysis [17.053079105858497]
ルート原因分析(RCA)はインシデント管理プロセスの重要な部分である。
大規模言語モデル(LLM)はRCAの実行に使用されているが、追加の診断情報を収集することはできない。
検索ツールを備えたReActエージェントを,マイクロソフトが収集した生産事故のアウト・オブ・ディストリビューション・データセット上で評価する。
論文 参考訳(メタデータ) (2024-03-07T00:44:01Z) - X-lifecycle Learning for Cloud Incident Management using LLMs [18.076347758182067]
大規模なクラウドサービスのインシデント管理は複雑で面倒なプロセスです。
大規模言語モデル [LLMs] の最近の進歩は、コンテキストレコメンデーションを自動的に生成する機会を生み出した。
本稿では,SDLCの異なる段階から追加のコンテキストデータを追加することで,性能が向上することを示す。
論文 参考訳(メタデータ) (2024-02-15T06:19:02Z) - FlexKBQA: A Flexible LLM-Powered Framework for Few-Shot Knowledge Base
Question Answering [16.88132219032486]
手動のアノテーションに関連する負担を軽減するためにFlexKBQAを導入します。
我々はLarge Language Models (LLM) を,KBQAタスクに固有の課題に対処するためのプログラムトランスレータとして活用する。
具体的には、FlexKBQAは自動化アルゴリズムを利用して、知識ベースからSPARQLクエリなどの多様なプログラムをサンプリングする。
より難易度の高いゼロショットシナリオでさえも、FlexKBQAは、いくつかのアノテーションで印象的な結果を得ることができます。
論文 参考訳(メタデータ) (2023-08-23T11:00:36Z) - Building Interpretable and Reliable Open Information Retriever for New
Domains Overnight [67.03842581848299]
情報検索は、オープンドメイン質問応答(QA)など、多くのダウンストリームタスクにとって重要な要素である。
本稿では、エンティティ/イベントリンクモデルとクエリ分解モデルを用いて、クエリの異なる情報単位により正確にフォーカスする情報検索パイプラインを提案する。
より解釈可能で信頼性が高いが,提案したパイプラインは,5つのIRおよびQAベンチマークにおける通過カバレッジと記述精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-09T07:47:17Z) - Mining Root Cause Knowledge from Cloud Service Incident Investigations
for AIOps [71.12026848664753]
サービス破壊インシデントの根本原因分析(RCA)は、ITプロセスにおける最も重要かつ複雑なタスクの1つです。
本研究では、Salesforceで構築されたICAと、ダウンストリームのインシデントサーチとレトリーバルベースのRCAパイプラインについて紹介する。
論文 参考訳(メタデータ) (2022-04-21T02:33:34Z) - UKP-SQUARE: An Online Platform for Question Answering Research [50.35348764297317]
我々は、研究者向けのオンラインQAプラットフォームであるUKP-SQUAREを紹介した。
UKP-SQUAREでは、ユーザフレンドリーなWebインターフェースと統合テストを通じて、モダンスキルの大規模なコレクションをクエリし、分析することができる。
論文 参考訳(メタデータ) (2022-03-25T15:00:24Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。