論文の概要: Qd-tree: Learning Data Layouts for Big Data Analytics
- arxiv url: http://arxiv.org/abs/2004.10898v1
- Date: Wed, 22 Apr 2020 23:42:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 18:49:02.806211
- Title: Qd-tree: Learning Data Layouts for Big Data Analytics
- Title(参考訳): Qd-tree:ビッグデータ分析のためのデータレイアウト学習
- Authors: Zongheng Yang, Badrish Chandramouli, Chi Wang, Johannes Gehrke, Yinan
Li, Umar Farooq Minhas, Per-{\AA}ke Larson, Donald Kossmann, Rajeev Acharya
- Abstract要約: 本稿では、クエリデータルーティングツリー(qd-tree)と呼ばれる新しいフレームワークを提案し、この問題に対処する。
実験により、qd木は現在のブロッキング方式と比較して1桁以上の物理的スピードアップを提供できることが示された。
- 参考スコア(独自算出の注目度): 33.07610112749939
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Corporations today collect data at an unprecedented and accelerating scale,
making the need to run queries on large datasets increasingly important.
Technologies such as columnar block-based data organization and compression
have become standard practice in most commercial database systems. However, the
problem of best assigning records to data blocks on storage is still open. For
example, today's systems usually partition data by arrival time into row
groups, or range/hash partition the data based on selected fields. For a given
workload, however, such techniques are unable to optimize for the important
metric of the number of blocks accessed by a query. This metric directly
relates to the I/O cost, and therefore performance, of most analytical queries.
Further, they are unable to exploit additional available storage to drive this
metric down further.
In this paper, we propose a new framework called a query-data routing tree,
or qd-tree, to address this problem, and propose two algorithms for their
construction based on greedy and deep reinforcement learning techniques.
Experiments over benchmark and real workloads show that a qd-tree can provide
physical speedups of more than an order of magnitude compared to current
blocking schemes, and can reach within 2X of the lower bound for data skipping
based on selectivity, while providing complete semantic descriptions of created
blocks.
- Abstract(参考訳): 現在、企業は前例のないスピードでデータを収集し、大規模なデータセットでクエリを実行する必要性が高まっている。
カラム型ブロックベースのデータ編成や圧縮といった技術は、ほとんどの商用データベースシステムで標準となっている。
しかし、ストレージ上のデータブロックにレコードを割り当てる問題はまだ未解決である。
例えば、今日のシステムは、通常、到着時間でデータを行グループに分割するか、選択したフィールドに基づいてデータを範囲/ハッシュに分割します。
しかし、与えられたワークロードに対して、クエリによってアクセスされるブロック数の重要なメトリックを最適化することはできない。
このメトリクスは、ほとんどの分析クエリのi/oコストやパフォーマンスに直接関係しています。
さらに、このメトリクスをさらに下げるために、追加の利用可能なストレージを活用できない。
本稿では,この問題を解決するために,クエリデータルーティングツリー(qd-tree)と呼ばれる新しいフレームワークを提案する。
ベンチマークと実際のワークロードに対する実験では、qd-treeは現在のブロッキング方式と比較して1桁以上の物理的スピードアップを提供し、選択性に基づいてデータスキップを行う場合の下位境界の2倍以内に到達し、生成されたブロックの完全なセマンティック記述を提供する。
関連論文リスト
- Differentially Private Learned Indexes [4.290415158471898]
我々は、暗号化されたデータベース上の述語クエリ、信頼された実行環境(TEE)によって確保されたクエリに効率よく応答する問題に対処する。
述語クエリを高速化する現代のデータベースにおける一般的な戦略は、インデックスの使用である。
残念ながら、強力なデータ依存リークのため、インデックスは暗号化されたデータベースに直接適用できない。
本研究では,よりコンパクトなDPインデックスを構築するために,機械学習モデルをインデックス構造として再利用するトレンド手法である学習指標を活用することを提案する。
論文 参考訳(メタデータ) (2024-10-28T16:04:58Z) - Data Aggregation for Hierarchical Clustering [0.3626013617212666]
BETULAは、よく知られたBIRCHデータ集約アルゴリズムの数値的に安定したバージョンである。
これは、クラスタリングの品質に小さな損失しか与えずに、制約のあるリソースを持つシステムでHACを実行可能なものにするために使用できる。
論文 参考訳(メタデータ) (2023-09-05T19:39:43Z) - LargeST: A Benchmark Dataset for Large-Scale Traffic Forecasting [65.71129509623587]
道路交通予測はスマートシティのイニシアチブにおいて重要な役割を担い、ディープラーニングの力によって大きな進歩を遂げている。
しかし、現在の公開データセットで達成される有望な結果は、現実的なシナリオには適用できないかもしれない。
カリフォルニアで合計8,600のセンサーと5年間の時間カバレッジを含む、LargeSTベンチマークデータセットを紹介します。
論文 参考訳(メタデータ) (2023-06-14T05:48:36Z) - WISK: A Workload-aware Learned Index for Spatial Keyword Queries [46.96314606580924]
本稿では,空間的キーワードクエリの学習指標であるWISKを提案する。
We show that WISK achieve up to 8x speedup in querying time with comparable storage overhead。
論文 参考訳(メタデータ) (2023-02-28T03:45:25Z) - Fast Online Hashing with Multi-Label Projection [15.85793225585693]
本稿では,データベースの小さな部分のバイナリコードのみを更新するFast Online Hashing(FOH)手法を提案する。
実験結果から,提案したFOHは,最先端のベースラインよりも6.28秒少ないクエリ時間で劇的な優位性が得られることが示された。
論文 参考訳(メタデータ) (2022-12-03T03:19:28Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - A Learned Index for Exact Similarity Search in Metric Spaces [25.330353637669386]
LIMSは、学習したインデックスを構築するために、データクラスタリングとピボットベースのデータ変換技術を使用することが提案されている。
機械学習モデルはディスク上の各データレコードの位置を近似するために開発された。
実世界のデータセットと合成データセットに関する大規模な実験は、従来の指標と比較してLIMSの優位性を示している。
論文 参考訳(メタデータ) (2022-04-21T11:24:55Z) - The Case for Learned Spatial Indexes [62.88514422115702]
我々は、空間範囲の問合せに答えるために、最先端の学習した多次元インデックス構造(すなわちFlood)から提案した手法を用いる。
i) パーティション内の機械学習検索は、1次元でフィルタリングを使用する場合の2進探索よりも11.79%速く、39.51%高速であることを示す。
また、2次元でフィルタする最も近い競合相手の1.23倍から1.83倍の速さで機械学習インデックスを精査する。
論文 参考訳(メタデータ) (2020-08-24T12:09:55Z) - DA-NAS: Data Adapted Pruning for Efficient Neural Architecture Search [76.9225014200746]
ニューラルネットワーク探索(NAS)における効率的な探索は中核的な問題である
本稿では,大規模ターゲットタスクのアーキテクチャを直接検索できるDA-NASを提案する。
従来の手法より2倍速く、精度は現在最先端であり、小さなFLOPの制約下で76.2%である。
論文 参考訳(メタデータ) (2020-03-27T17:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。