論文の概要: Real-time Workload Pattern Analysis for Large-scale Cloud Databases
- arxiv url: http://arxiv.org/abs/2307.02626v1
- Date: Wed, 5 Jul 2023 19:57:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 16:02:48.747279
- Title: Real-time Workload Pattern Analysis for Large-scale Cloud Databases
- Title(参考訳): 大規模クラウドデータベースにおけるリアルタイムワークロードパターン解析
- Authors: Jiaqi Wang, Tianyi Li, Anni Wang, Xiaoze Liu, Lu Chen, Jie Chen,
Jianye Liu, Junyang Wu, Feifei Li, Yunjun Gao
- Abstract要約: 我々は、複雑な大規模ワークロードでワークロードパターンを発見するリアルタイムシステムであるAlibaba Workload Miner (AWM)を提案する。
AWMは、ユーザリクエストからログされたクエリパターンをエンコードし、発見し、発見したパターンに基づいてクエリ処理を最適化する。
AWMは、パターン発見の精度を66%向上させ、オンライン推論のレイテンシを22%削減する。
- 参考スコア(独自算出の注目度): 37.372337941679675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hosting database services on cloud systems has become a common practice. This
has led to the increasing volume of database workloads, which provides the
opportunity for pattern analysis. Discovering workload patterns from a business
logic perspective is conducive to better understanding the trends and
characteristics of the database system. However, existing workload pattern
discovery systems are not suitable for large-scale cloud databases which are
commonly employed by the industry. This is because the workload patterns of
large-scale cloud databases are generally far more complicated than those of
ordinary databases. In this paper, we propose Alibaba Workload Miner (AWM), a
real-time system for discovering workload patterns in complicated large-scale
workloads. AWM encodes and discovers the SQL query patterns logged from user
requests and optimizes the querying processing based on the discovered
patterns. First, Data Collection & Preprocessing Module collects streaming
query logs and encodes them into high-dimensional feature embeddings with rich
semantic contexts and execution features. Next, Online Workload Mining Module
separates encoded queries by business groups and discovers the workload
patterns for each group. Meanwhile, Offline Training Module collects labels and
trains the classification model using the labels. Finally, Pattern-based
Optimizing Module optimizes query processing in cloud databases by exploiting
discovered patterns. Extensive experimental results on one synthetic dataset
and two real-life datasets (extracted from Alibaba Cloud databases) show that
AWM enhances the accuracy of pattern discovery by 66% and reduce the latency of
online inference by 22%, compared with the state-of-the-arts.
- Abstract(参考訳): データベースサービスをクラウドシステム上でホストすることは、一般的に実践されている。
これにより、データベースワークロードの量が増加し、パターン分析の機会が生まれました。
ビジネスロジックの観点からワークロードパターンを発見することは、データベースシステムのトレンドと特性をよりよく理解するために役立ちます。
しかし、既存のワークロードパターン発見システムは、業界で一般的に使われている大規模クラウドデータベースには適していない。
これは、大規模なクラウドデータベースのワークロードパターンが、通常データベースよりもはるかに複雑なためです。
本稿では,複雑な大規模ワークロードにおけるワークロードパターンを検出するリアルタイムシステムであるAlibaba Workload Miner(AWM)を提案する。
AWMはユーザリクエストからログされたSQLクエリパターンをエンコードし、発見し、発見したパターンに基づいてクエリ処理を最適化する。
まず、データ収集および前処理モジュールは、ストリーミングクエリログを収集し、リッチなセマンティックコンテキストと実行機能を備えた高次元の機能埋め込みにエンコードする。
次に、オンラインワークロードマイニングモジュールは、ビジネスグループによるエンコードされたクエリを分離し、各グループのワークロードパターンを検出する。
一方、オフライントレーニングモジュールはラベルを収集し、ラベルを使用して分類モデルを訓練する。
最後に、パターンベースのOptimizing Moduleは、発見されたパターンを利用して、クラウドデータベースのクエリ処理を最適化する。
1つの合成データセットと2つの実生活データセット(Alibaba Cloudデータベースから抽出された)に対する大規模な実験結果から、AWMはパターン発見の精度を66%向上し、オンライン推論のレイテンシを22%削減している。
関連論文リスト
- Two are better than one: Context window extension with multi-grained self-injection [111.1376461868317]
SharedLLMは、多粒度コンテキスト圧縮とクエリ対応情報検索の設計哲学に基づく新しいアプローチである。
本研究では,テキストチャンクの多粒度コンテキスト情報を効率的にエンコードし,保存し,検索するための木構造データ構造を提案する。
論文 参考訳(メタデータ) (2024-10-25T06:08:59Z) - Scaling Retrieval-Based Language Models with a Trillion-Token Datastore [85.4310806466002]
検索ベースLMが使用するデータストアのサイズを増大させることで,言語モデリングや下流タスクを一元的に改善できることがわかった。
データストア、モデル、事前学習データサイズで計算最適スケーリング曲線をプロットすることにより、より大きなデータストアを使用することで、同じトレーニング計算予算のモデル性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-07-09T08:27:27Z) - Retrieval Augmented Generation Systems: Automatic Dataset Creation,
Evaluation and Boolean Agent Setup [5.464952345664292]
Retrieval Augmented Generation (RAG) システムは、Large-Language Model (LLM) 出力をドメイン固有データと時間機密データで拡張することで大きな人気を得ている。
本稿では,RAG戦略を定量的に比較するために,厳密なデータセット作成と評価のワークフローを提案する。
論文 参考訳(メタデータ) (2024-02-26T12:56:17Z) - An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。
本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。
提案されたフレームワークは使いやすく、柔軟です。
論文 参考訳(メタデータ) (2024-02-26T07:22:51Z) - A Data Source for Reasoning Embodied Agents [44.72605392564578]
エンボディエージェントと統合されたマシン推論のための新しいデータジェネレータを提案する。
生成されたデータはテンプレート化されたテキストクエリと回答で構成され、データベースにエンコードされた世界状態にマッチする。
これらのモデルでは、世界国家に関するいくつかの質問に答えることができますが、他の人と戦っています。
論文 参考訳(メタデータ) (2023-09-14T18:17:16Z) - Saturn: An Optimized Data System for Large Model Deep Learning Workloads [6.377812618046872]
SPASEに取り組む: 並列性を選択し、リソースをアロケートし、スケジューリングする。
本研究では,SPASE問題に全体的に取り組むための新しい情報システムアーキテクチャを提案する。
また,MILPソルバの直接使用は,複数のベースラインよりも有意に有効であることがわかった。
論文 参考訳(メタデータ) (2023-09-03T17:19:11Z) - BitE : Accelerating Learned Query Optimization in a Mixed-Workload
Environment [0.36700088931938835]
BitEは、データベース統計とメタデータを使用して、学習したクエリをチューニングしてパフォーマンスを向上させる、新しいアンサンブル学習モデルである。
我々のモデルは従来の手法に比べて19.6%改善されたクエリと15.8%改善されたクエリを実現している。
論文 参考訳(メタデータ) (2023-06-01T16:05:33Z) - Neural Graph Reasoning: Complex Logical Query Answering Meets Graph
Databases [63.96793270418793]
複雑な論理クエリ応答(CLQA)は、グラフ機械学習の最近登場したタスクである。
ニューラルグラフデータベース(NGDB)の概念を紹介する。
NGDBはNeural Graph StorageとNeural Graph Engineで構成されている。
論文 参考訳(メタデータ) (2023-03-26T04:03:37Z) - Analytical Engines With Context-Rich Processing: Towards Efficient
Next-Generation Analytics [12.317930859033149]
我々は、文脈に富む分析を可能にするコンポーネントと協調して最適化された分析エンジンを構想する。
我々は、リレーショナルおよびモデルベース演算子間の総括的なパイプラインコストとルールベースの最適化を目指している。
論文 参考訳(メタデータ) (2022-12-14T21:46:33Z) - Bellamy: Reusing Performance Models for Distributed Dataflow Jobs Across
Contexts [52.9168275057997]
本稿では、スケールアウト、データセットサイズ、ランタイムをデータフロージョブの記述的特性と組み合わせた新しいモデリング手法であるBelamyを提案する。
我々は,異なる環境で実行される各種データフロージョブの実行データからなる2つの公開データセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2021-07-29T11:57:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。