論文の概要: Lumos: A Library for Diagnosing Metric Regressions in Web-Scale
Applications
- arxiv url: http://arxiv.org/abs/2006.12793v1
- Date: Tue, 23 Jun 2020 07:02:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 23:45:21.404082
- Title: Lumos: A Library for Diagnosing Metric Regressions in Web-Scale
Applications
- Title(参考訳): Lumos: Webスケールアプリケーションでメトリクス回帰を診断するためのライブラリ
- Authors: Jamie Pool, Ebrahim Beyrami, Vishak Gopal, Ashkan Aazami, Jayant
Gupchup, Jeff Rowland, Binlong Li, Pritesh Kanani, Ross Cutler, and Johannes
Gehrke
- Abstract要約: ABテストの原理を用いて構築されたPythonライブラリであるLumosを紹介し、メトリクス回帰を体系的に診断する。
LumosはMicrosoftのリアルタイムコミュニケーションアプリケーションSkypeとMicrosoft Teamsのコンポーネントチーム間でデプロイされている。
これによりエンジニアリングチームは、メトリクスの実際の変更を100回検出し、異常検知器によって検出された1000回の誤報を拒否することが可能になった。
- 参考スコア(独自算出の注目度): 13.52733069152118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Web-scale applications can ship code on a daily to weekly cadence. These
applications rely on online metrics to monitor the health of new releases.
Regressions in metric values need to be detected and diagnosed as early as
possible to reduce the disruption to users and product owners. Regressions in
metrics can surface due to a variety of reasons: genuine product regressions,
changes in user population, and bias due to telemetry loss (or processing) are
among the common causes. Diagnosing the cause of these metric regressions is
costly for engineering teams as they need to invest time in finding the root
cause of the issue as soon as possible. We present Lumos, a Python library
built using the principles of AB testing to systematically diagnose metric
regressions to automate such analysis. Lumos has been deployed across the
component teams in Microsoft's Real-Time Communication applications Skype and
Microsoft Teams. It has enabled engineering teams to detect 100s of real
changes in metrics and reject 1000s of false alarms detected by anomaly
detectors. The application of Lumos has resulted in freeing up as much as 95%
of the time allocated to metric-based investigations. In this work, we open
source Lumos and present our results from applying it to two different
components within the RTC group over millions of sessions. This general library
can be coupled with any production system to manage the volume of alerting
efficiently.
- Abstract(参考訳): webスケールアプリケーションは、毎日から毎週のケイデンスでコードを出荷できる。
これらのアプリケーションは、新しいリリースの健全性を監視するために、オンラインメトリクスに依存している。
メトリクス値の回帰は、ユーザーやプロダクトオーナーの混乱を減らすために、できるだけ早く検出し、診断する必要がある。
真の製品回帰、ユーザ人口の変化、テレメトリ損失(あるいは処理)によるバイアスなど、さまざまな理由からメトリクスの回帰が表面化します。
これらのメトリックレグレッションの原因の診断は、可能な限り早く問題の根本原因を見つけるために時間を投資する必要があるため、エンジニアリングチームにとってはコストがかかる。
ABテストの原理を用いて構築されたPythonライブラリであるLumosを紹介し,その分析を自動化するために,メトリクス回帰を体系的に診断する。
LumosはMicrosoftのリアルタイムコミュニケーションアプリケーションSkypeとMicrosoft Teamsのコンポーネントチーム間でデプロイされている。
エンジニアチームは、メトリクスの実際の変化を100回検出し、異常検出者によって検出された1000回の誤報を拒否することができる。
lumosの適用により、メートル法に基づく調査に割り当てられた時間の95%が解放された。
本研究はLumosをオープンソースとして公開し,RTCグループ内の2つの異なるコンポーネントに数百万のセッションで適用した結果を提示する。
この汎用ライブラリは、任意のプロダクションシステムと結合して、アラートのボリュームを効率的に管理することができる。
関連論文リスト
- Can LLMs Separate Instructions From Data? And What Do We Even Mean By
That? [70.90792645587449]
命令調整型大規模言語モデル(LLM)はブレークスルーを達成し、多くの実用的なアプリケーションに数え切れないほど新しい可能性を秘めている。
LLMには、命令とデータの分離など、コンピュータ科学の他の領域で確立されている基本的な安全機能がない。
本稿では,命令データ分離の現象を定量化するための公式測度と,その経験的変量を導入する。
論文 参考訳(メタデータ) (2024-03-11T15:48:56Z) - Performance Issue Identification in Cloud Systems with
Relational-Temporal Anomaly Detection [5.473091770227683]
パフォーマンス上の問題は、大規模なクラウドサービスシステムに浸透し、大きな収益損失をもたらす可能性がある。
信頼性の高いパフォーマンスを保証するためには、サービス監視メトリクスを使用してこれらの問題を正確に識別することが不可欠です。
いくつかの既存手法は、異常を検出するために各計量を独立に解析することでこの問題に対処している。
論文 参考訳(メタデータ) (2023-07-20T13:41:26Z) - Rapid Adaptation in Online Continual Learning: Are We Evaluating It
Right? [135.71855998537347]
オンライン連続学習(OCL)アルゴリズムの適応性を評価するための一般的な手法を,オンライン精度の指標を用いて再検討する。
空白のブラインド分類器でさえ、非現実的に高いオンライン精度を達成できるため、この指標は信頼できない。
既存のOCLアルゴリズムは、オンラインの精度も高いが、有用な情報の保持は不十分である。
論文 参考訳(メタデータ) (2023-05-16T08:29:33Z) - CADeSH: Collaborative Anomaly Detection for Smart Homes [17.072108188004396]
本稿では,2段階の協調的異常検出手法を提案する。
最初はオートエンコーダを使用して、頻繁な(良性)と頻繁な(悪意のある)トラフィックフローを区別する。
クラスタリングは、希少なフローのみを分析し、それを既知の('rare yet beign')または未知の(malicious')として分類する。
論文 参考訳(メタデータ) (2023-03-02T07:22:26Z) - CMMD: Cross-Metric Multi-Dimensional Root Cause Analysis [17.755405467437637]
大規模オンラインサービスでは、重要な指標であるキーパフォーマンス指標(KPI)が定期的に監視され、実行状態をチェックする。
異常値が観測されると、異常の原因を特定するために根本原因分析(RCA)を適用することができる。
本稿では,2つの鍵成分からなる多次元根本原因解析手法CMMDを提案する。
論文 参考訳(メタデータ) (2022-03-30T13:17:19Z) - Using sequential drift detection to test the API economy [4.056434158960926]
APIエコノミーは、API(高度なプログラミングインターフェース)の広範な統合を指す。
使用パターンを監視し、システムがこれまで使用されなかった方法でいつ使用されているかを特定することが望ましい。
この作業では、ヒストグラムとAPI使用のコールグラフの両方を分析し、システムの利用パターンがシフトしたかどうかを判断する。
論文 参考訳(メタデータ) (2021-11-09T13:24:19Z) - Automated User Experience Testing through Multi-Dimensional Performance
Impact Analysis [0.0]
新規な自動ユーザエクスペリエンステスト手法を提案する。
コードの変更が時間単位とシステムテストにどう影響するかを学び、この情報に基づいてユーザエクスペリエンスの変更を推定します。
当社のオープンソースツールは,ランダムフォレストレグレッサで絶対誤差率3.7%を達成した。
論文 参考訳(メタデータ) (2021-04-08T01:18:01Z) - TELESTO: A Graph Neural Network Model for Anomaly Classification in
Cloud Services [77.454688257702]
機械学習(ML)と人工知能(AI)はITシステムの運用とメンテナンスに適用される。
1つの方向は、修復自動化を可能にするために、繰り返し発生する異常タイプを認識することである。
与えられたデータの次元変化に不変な手法を提案する。
論文 参考訳(メタデータ) (2021-02-25T14:24:49Z) - Superiority of Simplicity: A Lightweight Model for Network Device
Workload Prediction [58.98112070128482]
本稿では,歴史観測に基づく時系列予測のための軽量な解を提案する。
ニューラルネットワークと平均予測器という2つのモデルからなる異種アンサンブル法で構成されている。
利用可能なFedCSIS 2020チャレンジデータセットの総合的なR2$スコア0.10を達成している。
論文 参考訳(メタデータ) (2020-07-07T15:44:16Z) - Learning Camera Miscalibration Detection [83.38916296044394]
本稿では,視覚センサ,特にRGBカメラの誤校正検出を学習するためのデータ駆動型アプローチに焦点を当てた。
コントリビューションには、RGBカメラの誤校正基準と、この基準に基づく新しい半合成データセット生成パイプラインが含まれる。
深層畳み込みニューラルネットワークをトレーニングすることにより、カメラ固有のパラメータの再校正が必要か否かを判断するパイプラインの有効性を実証する。
論文 参考訳(メタデータ) (2020-05-24T10:32:49Z) - Learning to Evaluate Perception Models Using Planner-Centric Metrics [104.33349410009161]
本稿では,自動運転のタスクに特化して,3次元物体検出の原理的基準を提案する。
私たちのメトリクスは、他のメトリクスが設計によって課す多くの間違いを罰します。
人間の評価では,基準基準値と基準値が一致しないシーンを生成し,基準値の79%が人間の側にあることがわかった。
論文 参考訳(メタデータ) (2020-04-19T02:14:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。