論文の概要: Dynamic Data Layout Optimization with Worst-case Guarantees
- arxiv url: http://arxiv.org/abs/2405.04984v1
- Date: Wed, 8 May 2024 11:46:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-09 14:44:45.398164
- Title: Dynamic Data Layout Optimization with Worst-case Guarantees
- Title(参考訳): 最悪の保証付き動的データレイアウト最適化
- Authors: Kexin Rong, Paul Liu, Sarah Ashok Sonje, Moses Charikar,
- Abstract要約: データ分析システムは、数百万行の行を含むパーティションに大規模なデータセットを格納し、処理する。
データレイアウトを予測されるクエリワークロードにカスタマイズすることで、クエリのパフォーマンスが大幅に向上する。
OReOによるオンライン再編成は、クエリと再編成時間の合計で最大32%の改善につながる可能性がある。
- 参考スコア(独自算出の注目度): 8.223445470879735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many data analytics systems store and process large datasets in partitions containing millions of rows. By mapping rows to partitions in an optimized way, it is possible to improve query performance by skipping over large numbers of irrelevant partitions during query processing. This mapping is referred to as a data layout. Recent works have shown that customizing the data layout to the anticipated query workload greatly improves query performance, but the performance benefits may disappear if the workload changes. Reorganizing data layouts to accommodate workload drift can resolve this issue, but reorganization costs could exceed query savings if not done carefully. In this paper, we present an algorithmic framework OReO that makes online reorganization decisions to balance the benefits of improved query performance with the costs of reorganization. Our framework extends results from Metrical Task Systems to provide a tight bound on the worst-case performance guarantee for online reorganization, without prior knowledge of the query workload. Through evaluation on real-world datasets and query workloads, our experiments demonstrate that online reorganization with OReO can lead to an up to 32% improvement in combined query and reorganization time compared to using a single, optimized data layout for the entire workload.
- Abstract(参考訳): 多くのデータ分析システムは、数百万行の行を含むパーティションに巨大なデータセットを格納し、処理する。
最適化された方法で行をパーティションにマッピングすることで、クエリ処理中に多数の無関係なパーティションをスキップすることで、クエリ性能を向上させることができる。
このマッピングは、データレイアウトと呼ばれる。
最近の研究によると、予想されるクエリワークロードへのデータレイアウトのカスタマイズはクエリのパフォーマンスを大幅に改善するが、ワークロードが変更されればパフォーマンス上のメリットは消える可能性がある。
ワークロードのドリフトに対応するためにデータレイアウトを再編成することは、この問題を解決することができるが、慎重に実行しなければ、再編成コストはクエリの節約を超える可能性がある。
本稿では,クエリ性能の向上と再編成コストのバランスをとるために,オンライン再編成決定を行うアルゴリズムフレームワークOReOを提案する。
我々のフレームワークはMetrical Task Systemsの結果を拡張し、クエリのワークロードを事前に知ることなく、オンライン再編成における最悪のパフォーマンス保証を厳格に拘束する。
実世界のデータセットとクエリのワークロードの評価を通じて、OReOによるオンライン再編成は、ワークロード全体に対して単一の最適化されたデータレイアウトを使用する場合と比較して、クエリと再編成時間の組み合わせで最大32%改善できることを示した。
関連論文リスト
- Database-Augmented Query Representation for Information Retrieval [59.57065228857247]
データベース拡張クエリ表現(DAQu)と呼ばれる新しい検索フレームワークを提案する。
DAQuは、元のクエリを複数のテーブルにまたがるさまざまな(クエリ関連の)メタデータで拡張する。
リレーショナルデータベースのメタデータを組み込む様々な検索シナリオにおいてDAQuを検証する。
論文 参考訳(メタデータ) (2024-06-23T05:02:21Z) - Controllable Prompt Tuning For Balancing Group Distributional Robustness [53.336515056479705]
グループ間で優れたパフォーマンスを実現するための最適化スキームを導入し、それらの性能を著しく犠牲にすることなく、全員に良い解決策を見出す。
本稿では,制御可能なプロンプトチューニング(CPT)を提案する。
突発的相関ベンチマークでは, 変換器と非変換器の両アーキテクチャ, および非モーダルおよびマルチモーダルデータにまたがって, 最先端の結果が得られた。
論文 参考訳(メタデータ) (2024-03-05T06:23:55Z) - Roq: Robust Query Optimization Based on a Risk-aware Learned Cost Model [3.0784574277021406]
本稿では,リスク認識型学習アプローチに基づくロバストなクエリ最適化を実現するための包括的フレームワークを提案する。
Roqには、クエリ最適化の文脈におけるロバストネスの概念の新たな形式化が含まれている。
我々は、Roqが最先端技術と比較して堅牢なクエリ最適化に大幅な改善をもたらすことを実験的に実証した。
論文 参考訳(メタデータ) (2024-01-26T21:16:37Z) - Sibyl: Forecasting Time-Evolving Query Workloads [9.16115447503004]
データベースシステムは、しばしば、ワークロードベースのパフォーマンスチューニングを実行するために、過去のクエリトレースに依存する。
実運用ワークロードは、時間的進化であり、将来のワークロードを最適化する上で、過去のクエリを非効率にする。
SIBYLはエンド・ツー・エンドの機械学習ベースのフレームワークで、将来的なクエリの順序を正確に予測する。
論文 参考訳(メタデータ) (2024-01-08T08:11:32Z) - Towards General and Efficient Online Tuning for Spark [55.30868031221838]
本稿では,3つの問題を同時に処理できる汎用的で効率的なSparkチューニングフレームワークを提案する。
我々は、このフレームワークを独立したクラウドサービスとして実装し、Tencentのデータプラットフォームに適用しました。
論文 参考訳(メタデータ) (2023-09-05T02:16:45Z) - JoinGym: An Efficient Query Optimization Environment for Reinforcement
Learning [58.71541261221863]
結合順序選択(JOS)は、クエリの実行コストを最小化するために結合操作を順序付けする問題である。
木質強化学習(RL)のためのクエリ最適化環境JoinGymを提案する。
JoinGymは内部で、事前計算されたデータセットから中間結果の濃度を調べることで、クエリプランのコストをシミュレートする。
論文 参考訳(メタデータ) (2023-07-21T17:00:06Z) - BitE : Accelerating Learned Query Optimization in a Mixed-Workload
Environment [0.36700088931938835]
BitEは、データベース統計とメタデータを使用して、学習したクエリをチューニングしてパフォーマンスを向上させる、新しいアンサンブル学習モデルである。
我々のモデルは従来の手法に比べて19.6%改善されたクエリと15.8%改善されたクエリを実現している。
論文 参考訳(メタデータ) (2023-06-01T16:05:33Z) - Performance Embeddings: A Similarity-based Approach to Automatic
Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。
本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文 参考訳(メタデータ) (2023-03-14T15:51:35Z) - Lero: A Learning-to-Rank Query Optimizer [49.841082217997354]
これは、ネイティブクエリの上に構築され、クエリ最適化を改善するために継続的に学習される。
Leroはスクラッチから学習を構築するのではなく、数十年にわたるデータベースの知恵を活用し、ネイティブ性を改善するように設計されている。
Leroはいくつかのベンチマークでほぼ最適なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-02-14T07:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。