論文の概要: A Pluggable Learned Index Method via Sampling and Gap Insertion
- arxiv url: http://arxiv.org/abs/2101.00808v1
- Date: Mon, 4 Jan 2021 07:17:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-11 22:52:49.454769
- Title: A Pluggable Learned Index Method via Sampling and Gap Insertion
- Title(参考訳): サンプリングとギャップ挿入によるプラガブル学習インデックス法
- Authors: Yaliang Li, Daoyuan Chen, Bolin Ding, Kai Zeng, Jingren Zhou
- Abstract要約: データベースインデックスは、データ検索を促進し、現実世界のシステムにおける幅広いアプリケーションに役立つ。
近年,隠れて有用なデータ分布を学習するために,learning indexという新しいインデックスが提案されている。
学習指標の学習効率と学習効率を高めるための2つの一般的なテクニックとプラグイン可能なテクニックを研究します。
- 参考スコア(独自算出の注目度): 48.900186573181735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Database indexes facilitate data retrieval and benefit broad applications in
real-world systems. Recently, a new family of index, named learned index, is
proposed to learn hidden yet useful data distribution and incorporate such
information into the learning of indexes, which leads to promising performance
improvements. However, the "learning" process of learned indexes is still
under-explored. In this paper, we propose a formal machine learning based
framework to quantify the index learning objective, and study two general and
pluggable techniques to enhance the learning efficiency and learning
effectiveness for learned indexes. With the guidance of the formal learning
objective, we can efficiently learn index by incorporating the proposed
sampling technique, and learn precise index with enhanced generalization
ability brought by the proposed result-driven gap insertion technique.
We conduct extensive experiments on real-world datasets and compare several
indexing methods from the perspective of the index learning objective. The
results show the ability of the proposed framework to help to design suitable
indexes for different scenarios. Further, we demonstrate the effectiveness of
the proposed sampling technique, which achieves up to 78x construction speedup
while maintaining non-degraded indexing performance. Finally, we show the gap
insertion technique can enhance both the static and dynamic indexing
performances of existing learned index methods with up to 1.59x query speedup.
We will release our codes and processed data for further study, which can
enable more exploration of learned indexes from both the perspectives of
machine learning and database.
- Abstract(参考訳): データベースインデックスは、データ検索を促進し、現実世界のシステムにおける幅広いアプリケーションに役立つ。
近年,隠れて有用なデータ分布を学習し,そのような情報を索引の学習に組み込むことで,有望な性能向上を実現するために,学習指標と呼ばれる新しい指標群が提案されている。
しかし、学習インデックスの「学習」プロセスはまだ未熟である。
本稿では,索引学習目標を定量化する形式的機械学習フレームワークを提案し,学習指標の学習効率と学習効率を向上させるための2つの汎用的およびプラグ可能な手法について検討する。
形式的学習目的の指導により,提案手法を組み込んだインデックスを効率的に学習し,結果駆動ギャップ挿入手法によってもたらされる一般化能力を高めた正確なインデックスを学習できる。
本研究では,実世界のデータセットに関する広範囲な実験を行い,インデックス学習目的の観点から,複数の索引付け手法を比較した。
その結果,異なるシナリオに適したインデックスを設計するためのフレームワークが提案されている。
さらに, 提案手法の有効性を実証し, 非劣化インデクシング性能を維持しつつ, 最大78倍の高速化を実現する。
最後に、gap挿入手法により、最大1.59倍のクエリスピードアップで、既存の学習インデックスメソッドの静的および動的インデックス化性能を向上できることを示す。
さらなる研究のために、コードと処理データをリリースし、マシンラーニングとデータベースの両方の観点から、学習されたインデックスのさらなる探索を可能にします。
関連論文リスト
- Knowledge Navigator: LLM-guided Browsing Framework for Exploratory Search in Scientific Literature [48.572336666741194]
本稿では,探索探索能力の向上を目的とした知識ナビゲータを提案する。
検索された文書を、名前と記述の科学トピックとサブトピックの、ナビゲート可能な2段階の階層に整理する。
論文 参考訳(メタデータ) (2024-08-28T14:48:37Z) - Semi-Parametric Retrieval via Binary Token Index [71.78109794895065]
Semi-parametric Vocabulary Disentangled Retrieval (SVDR) は、新しい半パラメトリック検索フレームワークである。
既存のニューラル検索手法に似た、高い有効性のための埋め込みベースのインデックスと、従来の用語ベースの検索に似た、迅速かつ費用対効果の高いセットアップを可能にするバイナリトークンインデックスの2つのタイプをサポートする。
埋め込みベースインデックスを使用する場合の高密度検索器DPRよりも3%高いトップ1検索精度と、バイナリトークンインデックスを使用する場合のBM25よりも9%高いトップ1検索精度を実現する。
論文 参考訳(メタデータ) (2024-05-03T08:34:13Z) - A Large Scale Search Dataset for Unbiased Learning to Rank [51.97967284268577]
我々は、非バイアス学習のためのBaidu-ULTRデータセットをランク付けする。
ランダムに12億の検索セッションと7,008のエキスパートアノテートクエリをサンプリングする。
1)本来のセマンティックな特徴と,使用が容易な事前学習言語モデル,(2)位置,表示高さ,抽象表現などの十分な表示情報,(3)居住時間のような検索結果ページ(SERP)に対するリッチなユーザフィードバックを提供する。
論文 参考訳(メタデータ) (2022-07-07T02:37:25Z) - LSI: A Learned Secondary Index Structure [24.324528705706104]
本研究では,未分類データのインデックス化に学習指標を使用する最初の試みであるLearnered secondary Index(LSI)を紹介する。
LSIは最先端のセカンダリインデックスに匹敵するルックアップ性能を実現し,空間効率を最大6倍に向上することを示す。
論文 参考訳(メタデータ) (2022-05-11T20:49:44Z) - A Learned Index for Exact Similarity Search in Metric Spaces [25.330353637669386]
LIMSは、学習したインデックスを構築するために、データクラスタリングとピボットベースのデータ変換技術を使用することが提案されている。
機械学習モデルはディスク上の各データレコードの位置を近似するために開発された。
実世界のデータセットと合成データセットに関する大規模な実験は、従来の指標と比較してLIMSの優位性を示している。
論文 参考訳(メタデータ) (2022-04-21T11:24:55Z) - Learned Indexes for a Google-scale Disk-based Database [23.93643265060042]
学習したインデックスが分散ディスクベースのデータベースシステムにどのように統合できるかを示す: GoogleのBigtable。
その結果,学習インデックスの統合により,bigtableの読み取りレイテンシとスループットが大幅に向上することがわかった。
論文 参考訳(メタデータ) (2020-12-23T05:56:45Z) - The Case for Learned Spatial Indexes [62.88514422115702]
我々は、空間範囲の問合せに答えるために、最先端の学習した多次元インデックス構造(すなわちFlood)から提案した手法を用いる。
i) パーティション内の機械学習検索は、1次元でフィルタリングを使用する場合の2進探索よりも11.79%速く、39.51%高速であることを示す。
また、2次元でフィルタする最も近い競合相手の1.23倍から1.83倍の速さで機械学習インデックスを精査する。
論文 参考訳(メタデータ) (2020-08-24T12:09:55Z) - Learning from Data to Speed-up Sorted Table Search Procedures:
Methodology and Practical Guidelines [0.0]
機械学習技術の拡張が、このようなスピードアップにどのような貢献をできるかを調査する。
我々は、CPUおよびGPUコンピューティングの両方を考慮して、後者が前者に対して利益を上げることができるシナリオを特徴づける。
実際、ここで提案した学習表検索手順を自然に補完するアルゴリズム的パラダイムを定式化し、既知の学習表検索手順の大部分を、単純な線形回帰を近似した「学習フェーズ」を持つものとして特徴付ける。
論文 参考訳(メタデータ) (2020-07-20T16:26:54Z) - Post-Estimation Smoothing: A Simple Baseline for Learning with Side
Information [102.18616819054368]
本稿では,構造指標データを予測に組み込む高速かつ効率的な手法として,後推定平滑化演算子を提案する。
滑らかなステップは元の予測器とは分離されているため、機械学習タスクの幅広いクラスに適用できる。
大規模な空間的・時間的データセットに関する実験は,実測後のスムース化の速度と正確さを浮き彫りにした。
論文 参考訳(メタデータ) (2020-03-12T18:04:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。