論文の概要: LSI: A Learned Secondary Index Structure
- arxiv url: http://arxiv.org/abs/2205.05769v1
- Date: Wed, 11 May 2022 20:49:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 14:18:48.847986
- Title: LSI: A Learned Secondary Index Structure
- Title(参考訳): LSI: 学習された二次インデックス構造
- Authors: Andreas Kipf, Dominik Horn, Pascal Pfeil, Ryan Marcus, Tim Kraska
- Abstract要約: 本研究では,未分類データのインデックス化に学習指標を使用する最初の試みであるLearnered secondary Index(LSI)を紹介する。
LSIは最先端のセカンダリインデックスに匹敵するルックアップ性能を実現し,空間効率を最大6倍に向上することを示す。
- 参考スコア(独自算出の注目度): 24.324528705706104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learned index structures have been shown to achieve favorable lookup
performance and space consumption compared to their traditional counterparts
such as B-trees. However, most learned index studies have focused on the
primary indexing setting, where the base data is sorted. In this work, we
investigate whether learned indexes sustain their advantage in the secondary
indexing setting. We introduce Learned Secondary Index (LSI), a first attempt
to use learned indexes for indexing unsorted data. LSI works by building a
learned index over a permutation vector, which allows binary search to
performed on the unsorted base data using random access. We additionally
augment LSI with a fingerprint vector to accelerate equality lookups. We show
that LSI achieves comparable lookup performance to state-of-the-art secondary
indexes while being up to 6x more space efficient.
- Abstract(参考訳): 学習された索引構造は、B木などの伝統的な指標と比較して、良好なルックアップ性能と空間消費を実現することが示されている。
しかし、ほとんどの学習されたインデックス研究は、ベースデータをソートするプライマリインデックス設定に焦点を当てている。
本研究では,学習指標がセカンダリインデックス設定において優位性を維持するかどうかを検討する。
本研究では,未分類データのインデックス化に学習指標を使用する最初の試みであるLearnered secondary Index(LSI)を紹介する。
LSIは、学習したインデックスを置換ベクトル上に構築することで、ランダムアクセスを使用して、未分類のベースデータ上でバイナリ検索を行うことができる。
さらに,lsiを指紋ベクターで拡張し,等式検索を高速化する。
LSIは最先端のセカンダリインデックスに匹敵するルックアップ性能を実現し,空間効率を最大6倍に向上することを示す。
関連論文リスト
- Differentially Private Learned Indexes [4.290415158471898]
我々は、暗号化されたデータベース上の述語クエリ、信頼された実行環境(TEE)によって確保されたクエリに効率よく応答する問題に対処する。
述語クエリを高速化する現代のデータベースにおける一般的な戦略は、インデックスの使用である。
残念ながら、強力なデータ依存リークのため、インデックスは暗号化されたデータベースに直接適用できない。
本研究では,よりコンパクトなDPインデックスを構築するために,機械学習モデルをインデックス構造として再利用するトレンド手法である学習指標を活用することを提案する。
論文 参考訳(メタデータ) (2024-10-28T16:04:58Z) - Operational Advice for Dense and Sparse Retrievers: HNSW, Flat, or Inverted Indexes? [62.57689536630933]
本稿では,オープンソースのLucene検索ライブラリを用いたBEIRデータセットの実験結果について述べる。
本研究は,高密度かつ疎密なレトリバーの設計空間を理解するための,今日の検索実践者へのガイダンスを提供する。
論文 参考訳(メタデータ) (2024-09-10T12:46:23Z) - Semi-Parametric Retrieval via Binary Token Index [71.78109794895065]
Semi-parametric Vocabulary Disentangled Retrieval (SVDR) は、新しい半パラメトリック検索フレームワークである。
既存のニューラル検索手法に似た、高い有効性のための埋め込みベースのインデックスと、従来の用語ベースの検索に似た、迅速かつ費用対効果の高いセットアップを可能にするバイナリトークンインデックスの2つのタイプをサポートする。
埋め込みベースインデックスを使用する場合の高密度検索器DPRよりも3%高いトップ1検索精度と、バイナリトークンインデックスを使用する場合のBM25よりも9%高いトップ1検索精度を実現する。
論文 参考訳(メタデータ) (2024-05-03T08:34:13Z) - End-to-End Learning to Index and Search in Large Output Spaces [95.16066833532396]
Extreme Multi-label Classification (XMC) は現実世界の問題を解決するための一般的なフレームワークである。
本稿では,木系インデックスを特殊重み付きグラフベースインデックスに緩和する新しい手法を提案する。
ELIASは、数百万のラベルを持つ大規模極端分類ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-16T01:34:17Z) - Bridging the Gap Between Indexing and Retrieval for Differentiable
Search Index with Query Generation [98.02743096197402]
Differentiable Search Index (DSI) は情報検索の新たなパラダイムである。
そこで我々は, DSI-QG と呼ばれる, DSI のための簡易かつ効果的な索引付けフレームワークを提案する。
DSI-QG が元の DSI モデルより有意に優れていたことを示す。
論文 参考訳(メタデータ) (2022-06-21T06:21:23Z) - A Learned Index for Exact Similarity Search in Metric Spaces [25.330353637669386]
LIMSは、学習したインデックスを構築するために、データクラスタリングとピボットベースのデータ変換技術を使用することが提案されている。
機械学習モデルはディスク上の各データレコードの位置を近似するために開発された。
実世界のデータセットと合成データセットに関する大規模な実験は、従来の指標と比較してLIMSの優位性を示している。
論文 参考訳(メタデータ) (2022-04-21T11:24:55Z) - Micro-architectural Analysis of a Learned Index [0.0]
ALEXはツリーベースのインメモリインデックス構造であり、機械学習モデルの階層構造で構成されている。
その結果、ALEXはストールを少なくし、異なるワークロードにまたがるインストラクションあたりのサイクル値が低いことがわかった。
一方、ALEXのアウト・オブ・バウンド・インサートを扱うのに必要な命令の量は、リクエスト毎の命令を著しく増加させる(10X)。
論文 参考訳(メタデータ) (2021-09-17T12:13:06Z) - A Pluggable Learned Index Method via Sampling and Gap Insertion [48.900186573181735]
データベースインデックスは、データ検索を促進し、現実世界のシステムにおける幅広いアプリケーションに役立つ。
近年,隠れて有用なデータ分布を学習するために,learning indexという新しいインデックスが提案されている。
学習指標の学習効率と学習効率を高めるための2つの一般的なテクニックとプラグイン可能なテクニックを研究します。
論文 参考訳(メタデータ) (2021-01-04T07:17:23Z) - The Case for Learned Spatial Indexes [62.88514422115702]
我々は、空間範囲の問合せに答えるために、最先端の学習した多次元インデックス構造(すなわちFlood)から提案した手法を用いる。
i) パーティション内の機械学習検索は、1次元でフィルタリングを使用する場合の2進探索よりも11.79%速く、39.51%高速であることを示す。
また、2次元でフィルタする最も近い競合相手の1.23倍から1.83倍の速さで機械学習インデックスを精査する。
論文 参考訳(メタデータ) (2020-08-24T12:09:55Z) - Tsunami: A Learned Multi-dimensional Index for Correlated Data and
Skewed Workloads [29.223401893397714]
我々は,既存の学習した多次元インデックスよりも最大6倍高速なクエリ性能と最大8倍のインデックスサイズを実現する綱見を紹介した。
論文 参考訳(メタデータ) (2020-06-23T19:25:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。