論文の概要: Tsunami: A Learned Multi-dimensional Index for Correlated Data and
Skewed Workloads
- arxiv url: http://arxiv.org/abs/2006.13282v1
- Date: Tue, 23 Jun 2020 19:25:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 23:55:16.793831
- Title: Tsunami: A Learned Multi-dimensional Index for Correlated Data and
Skewed Workloads
- Title(参考訳): 津波: 相関データと歪んだ作業量の多次元学習指標
- Authors: Jialin Ding and Vikram Nathan and Mohammad Alizadeh and Tim Kraska
- Abstract要約: 我々は,既存の学習した多次元インデックスよりも最大6倍高速なクエリ性能と最大8倍のインデックスサイズを実現する綱見を紹介した。
- 参考スコア(独自算出の注目度): 29.223401893397714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Filtering data based on predicates is one of the most fundamental operations
for any modern data warehouse. Techniques to accelerate the execution of filter
expressions include clustered indexes, specialized sort orders (e.g., Z-order),
multi-dimensional indexes, and, for high selectivity queries, secondary
indexes. However, these schemes are hard to tune and their performance is
inconsistent. Recent work on learned multi-dimensional indexes has introduced
the idea of automatically optimizing an index for a particular dataset and
workload. However, the performance of that work suffers in the presence of
correlated data and skewed query workloads, both of which are common in real
applications. In this paper, we introduce Tsunami, which addresses these
limitations to achieve up to 6X faster query performance and up to 8X smaller
index size than existing learned multi-dimensional indexes, in addition to up
to 11X faster query performance and 170X smaller index size than
optimally-tuned traditional indexes.
- Abstract(参考訳): 述語に基づくデータのフィルタリングは、現代のデータウェアハウスでもっとも基本的な操作の1つです。
フィルタ式の実行を高速化するための技術としては、クラスタ化インデックス、特殊ソート順序(例えばz-order)、多次元インデックス、高選択性クエリ、セカンダリインデックスなどがある。
しかし、これらのスキームはチューニングが難しく、性能に一貫性がない。
学習した多次元インデックスに関する最近の研究は、特定のデータセットとワークロードのインデックスを自動的に最適化するというアイデアを導入している。
しかし、その作業のパフォーマンスは相関データとスキュークエリワークロードの存在に悩まされ、どちらも実際のアプリケーションでは一般的である。
本稿では,これらの制限に対処して,既存の学習した多次元インデックスよりも最大6倍高速なクエリ性能と最大8倍小型のインデックスサイズを実現し,また,最大11倍高速なクエリ性能と170倍小型のインデックスサイズを実現した。
関連論文リスト
- WISK: A Workload-aware Learned Index for Spatial Keyword Queries [46.96314606580924]
本稿では,空間的キーワードクエリの学習指標であるWISKを提案する。
We show that WISK achieve up to 8x speedup in querying time with comparable storage overhead。
論文 参考訳(メタデータ) (2023-02-28T03:45:25Z) - DSI++: Updating Transformer Memory with New Documents [95.70264288158766]
DSI++は、DSIが新たなドキュメントをインクリメンタルにインデクシングするための継続的な学習課題である。
新たな文書の連続的な索引付けは,それまでの索引付け文書をかなり忘れてしまうことを示す。
文書の擬似クエリをサンプルとして生成メモリを導入し、連続的なインデックス付け中に補足することで、検索タスクの忘れを防止する。
論文 参考訳(メタデータ) (2022-12-19T18:59:34Z) - End-to-End Learning to Index and Search in Large Output Spaces [95.16066833532396]
Extreme Multi-label Classification (XMC) は現実世界の問題を解決するための一般的なフレームワークである。
本稿では,木系インデックスを特殊重み付きグラフベースインデックスに緩和する新しい手法を提案する。
ELIASは、数百万のラベルを持つ大規模極端分類ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-16T01:34:17Z) - Bridging the Gap Between Indexing and Retrieval for Differentiable
Search Index with Query Generation [98.02743096197402]
Differentiable Search Index (DSI) は情報検索の新たなパラダイムである。
そこで我々は, DSI-QG と呼ばれる, DSI のための簡易かつ効果的な索引付けフレームワークを提案する。
DSI-QG が元の DSI モデルより有意に優れていたことを示す。
論文 参考訳(メタデータ) (2022-06-21T06:21:23Z) - LSI: A Learned Secondary Index Structure [24.324528705706104]
本研究では,未分類データのインデックス化に学習指標を使用する最初の試みであるLearnered secondary Index(LSI)を紹介する。
LSIは最先端のセカンダリインデックスに匹敵するルックアップ性能を実現し,空間効率を最大6倍に向上することを示す。
論文 参考訳(メタデータ) (2022-05-11T20:49:44Z) - A Learned Index for Exact Similarity Search in Metric Spaces [25.330353637669386]
LIMSは、学習したインデックスを構築するために、データクラスタリングとピボットベースのデータ変換技術を使用することが提案されている。
機械学習モデルはディスク上の各データレコードの位置を近似するために開発された。
実世界のデータセットと合成データセットに関する大規模な実験は、従来の指標と比較してLIMSの優位性を示している。
論文 参考訳(メタデータ) (2022-04-21T11:24:55Z) - Micro-architectural Analysis of a Learned Index [0.0]
ALEXはツリーベースのインメモリインデックス構造であり、機械学習モデルの階層構造で構成されている。
その結果、ALEXはストールを少なくし、異なるワークロードにまたがるインストラクションあたりのサイクル値が低いことがわかった。
一方、ALEXのアウト・オブ・バウンド・インサートを扱うのに必要な命令の量は、リクエスト毎の命令を著しく増加させる(10X)。
論文 参考訳(メタデータ) (2021-09-17T12:13:06Z) - A Pluggable Learned Index Method via Sampling and Gap Insertion [48.900186573181735]
データベースインデックスは、データ検索を促進し、現実世界のシステムにおける幅広いアプリケーションに役立つ。
近年,隠れて有用なデータ分布を学習するために,learning indexという新しいインデックスが提案されている。
学習指標の学習効率と学習効率を高めるための2つの一般的なテクニックとプラグイン可能なテクニックを研究します。
論文 参考訳(メタデータ) (2021-01-04T07:17:23Z) - The Case for Learned Spatial Indexes [62.88514422115702]
我々は、空間範囲の問合せに答えるために、最先端の学習した多次元インデックス構造(すなわちFlood)から提案した手法を用いる。
i) パーティション内の機械学習検索は、1次元でフィルタリングを使用する場合の2進探索よりも11.79%速く、39.51%高速であることを示す。
また、2次元でフィルタする最も近い競合相手の1.23倍から1.83倍の速さで機械学習インデックスを精査する。
論文 参考訳(メタデータ) (2020-08-24T12:09:55Z) - Hands-off Model Integration in Spatial Index Structures [8.710716183434918]
本稿では,軽量機械学習モデルを用いて空間インデックスのクエリを高速化する機会について検討する。
我々は、R木において、おそらく最も広く使われている空間指標である、それと類似した手法を使うことの可能性を探ることによって、そうする。
分析で示すように、クエリの実行時間を最大60%削減でき、同時にインデックスのメモリフットプリントを90%以上削減できる。
論文 参考訳(メタデータ) (2020-06-29T22:05:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。