論文の概要: On Enhancing Root Cause Analysis with SQL Summaries for Failures in Database Workload Replays at SAP HANA
- arxiv url: http://arxiv.org/abs/2412.13679v1
- Date: Wed, 18 Dec 2024 10:07:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:47:37.004602
- Title: On Enhancing Root Cause Analysis with SQL Summaries for Failures in Database Workload Replays at SAP HANA
- Title(参考訳): SAP HANAにおけるデータベース・ワークロード・リプレイにおける障害に対するSQLサマリによる根本原因解析の強化について
- Authors: Neetha Jambigi, Joshua Hammesfahr, Moritz Mueller, Thomas Bach, Michael Felderer,
- Abstract要約: リプレイ時に発生する障害の根本原因分析を自動化するために,機械学習ベースのフレームワークを採用している。
トレーニングデータに見つからない新しい問題を扱うことは、機械学習アプローチの一般的な課題である。
- 参考スコア(独自算出の注目度): 3.3158239079459655
- License:
- Abstract: Capturing the workload of a database and replaying this workload for a new version of the database can be an effective approach for regression testing. However, false positive errors caused by many factors such as data privacy limitations, time dependency or non-determinism in multi-threaded environment can negatively impact the effectiveness. Therefore, we employ a machine learning based framework to automate the root cause analysis of failures found during replays. However, handling unseen novel issues not found in the training data is one general challenge of machine learning approaches with respect to generalizability of the learned model. We describe how we continue to address this challenge for more robust long-term solutions. From our experience, retraining with new failures is inadequate due to features overlapping across distinct root causes. Hence, we leverage a large language model (LLM) to analyze failed SQL statements and extract concise failure summaries as an additional feature to enhance the classification process. Our experiments show the F1-Macro score improved by 4.77% for our data. We consider our approach beneficial for providing end users with additional information to gain more insights into the found issues and to improve the assessment of the replay results.
- Abstract(参考訳): データベースのワークロードをキャプチャして、このワークロードを新しいバージョンのデータベースにリプレイすることは、回帰テストに効果的なアプローチである。
しかし、データプライバシの制限や時間依存性、マルチスレッド環境における非決定性など、多くの要因による偽陽性エラーは、その効果に悪影響を及ぼす可能性がある。
そこで我々は,リプレイ時に発生する障害の根本原因分析を自動化するために,機械学習ベースのフレームワークを採用した。
しかし、トレーニングデータに見つからない新しい問題に対処することは、学習モデルの一般化性に関して機械学習アプローチの一般的な課題である。
我々は、より堅牢な長期的なソリューションにおいて、この課題にどのように対処していくかを説明します。
私たちの経験では、異なる根本原因にオーバーラップする機能のために、新しい障害でのトレーニングは不十分です。
そこで我々は,大規模な言語モデル(LLM)を活用して,失敗したSQL文を分析し,簡潔な失敗要約を抽出して分類プロセスを強化する。
実験の結果,F1-Macroのスコアは4.77%向上した。
提案手法はエンドユーザーにさらなる情報を提供することによって,発見した問題に対する洞察を得るとともに,リプレイ結果の評価を改善する上で有用であると考えられる。
関連論文リスト
- Multi-modal Causal Structure Learning and Root Cause Analysis [67.67578590390907]
根本原因局所化のためのマルチモーダル因果構造学習手法であるMulanを提案する。
ログ選択言語モデルを利用してログ表現学習を行い、ログシーケンスを時系列データに変換する。
また、モダリティの信頼性を評価し、最終因果グラフを共同学習するための新しいキーパフォーマンスインジケータ対応アテンション機構も導入する。
論文 参考訳(メタデータ) (2024-02-04T05:50:38Z) - Enhancing Consistency and Mitigating Bias: A Data Replay Approach for
Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。
しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。
代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - Better Generative Replay for Continual Federated Learning [20.57194599280318]
フェデレートラーニング(Federated Learning)とは、分散クライアントからコミュニケーションを通じて学習する集中型サーバを実現する技術である。
本稿では,クライアントが新たなタスクを段階的に学習し,履歴データを格納できない連続的フェデレーション学習の問題を紹介する。
我々は,モデル統合と整合性強化という,シンプルだが効果的な2つの解を用いたFedCILモデルを提案する。
論文 参考訳(メタデータ) (2023-02-25T06:26:56Z) - Enabling SQL-based Training Data Debugging for Federated Learning [24.716084718496365]
我々は,最先端のArtsqlベースのトレーニングデータデバッグフレームワークであるRainを,当社のフェデレーション学習環境に拡張するFedRainを提案する。
これらの制限を克服するため、我々はセキュリティプロトコルを再設計し、フェデレートラーニングに適した新しいsqlベースのトレーニングデータデバッグフレームワークであるFrogを提案する。
我々の理論分析によると、FrogはFedRainよりも安全で、正確で、効率的である。
論文 参考訳(メタデータ) (2021-08-26T16:20:56Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - Generative Feature Replay with Orthogonal Weight Modification for
Continual Learning [20.8966035274874]
生成的再生は、破滅的な忘れを和らげるために、以前のタスクの擬似データを生成し再生する有望な戦略である。
生成モデルを用いて垂直層の特徴を再現することを提案する; 2) 自己監督型補助タスクを活用して特徴の安定性をさらに向上する。
いくつかのデータセットにおける実験結果から,我々の手法は常に強力なOWMよりも大幅に改善されていることが分かる。
論文 参考訳(メタデータ) (2020-05-07T13:56:22Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z) - Complaint-driven Training Data Debugging for Query 2.0 [19.755285494278983]
苦情駆動型トレーニングデータデバッグシステムであるRainを提案する。
Rainでは、クエリの中間出力または最終出力に関する苦情を指定できる。
本稿では、線形再学習ステップを必要とする影響関数に基づく2つの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-04-12T23:56:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。