論文の概要: LSI: A Learned Secondary Index Structure
- arxiv url: http://arxiv.org/abs/2205.05769v1
- Date: Wed, 11 May 2022 20:49:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 14:18:48.847986
- Title: LSI: A Learned Secondary Index Structure
- Title(参考訳): LSI: 学習された二次インデックス構造
- Authors: Andreas Kipf, Dominik Horn, Pascal Pfeil, Ryan Marcus, Tim Kraska
- Abstract要約: 本研究では,未分類データのインデックス化に学習指標を使用する最初の試みであるLearnered secondary Index(LSI)を紹介する。
LSIは最先端のセカンダリインデックスに匹敵するルックアップ性能を実現し,空間効率を最大6倍に向上することを示す。
- 参考スコア(独自算出の注目度): 24.324528705706104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learned index structures have been shown to achieve favorable lookup
performance and space consumption compared to their traditional counterparts
such as B-trees. However, most learned index studies have focused on the
primary indexing setting, where the base data is sorted. In this work, we
investigate whether learned indexes sustain their advantage in the secondary
indexing setting. We introduce Learned Secondary Index (LSI), a first attempt
to use learned indexes for indexing unsorted data. LSI works by building a
learned index over a permutation vector, which allows binary search to
performed on the unsorted base data using random access. We additionally
augment LSI with a fingerprint vector to accelerate equality lookups. We show
that LSI achieves comparable lookup performance to state-of-the-art secondary
indexes while being up to 6x more space efficient.
- Abstract(参考訳): 学習された索引構造は、B木などの伝統的な指標と比較して、良好なルックアップ性能と空間消費を実現することが示されている。
しかし、ほとんどの学習されたインデックス研究は、ベースデータをソートするプライマリインデックス設定に焦点を当てている。
本研究では,学習指標がセカンダリインデックス設定において優位性を維持するかどうかを検討する。
本研究では,未分類データのインデックス化に学習指標を使用する最初の試みであるLearnered secondary Index(LSI)を紹介する。
LSIは、学習したインデックスを置換ベクトル上に構築することで、ランダムアクセスを使用して、未分類のベースデータ上でバイナリ検索を行うことができる。
さらに,lsiを指紋ベクターで拡張し,等式検索を高速化する。
LSIは最先端のセカンダリインデックスに匹敵するルックアップ性能を実現し,空間効率を最大6倍に向上することを示す。
関連論文リスト
- How to Index Item IDs for Recommendation Foundation Models [49.425959632372425]
Recommendation foundation modelは、リコメンデーションタスクを自然言語タスクに変換することで、リコメンデーションのために大きな言語モデル(LLM)を利用する。
過剰に長いテキストや幻覚的なレコメンデーションを生成するのを避けるために、LCM互換のアイテムIDを作成することが不可欠である。
本稿では,シーケンシャルインデックス,協調インデックス,セマンティックインデックス(コンテンツベース)インデックス,ハイブリッドインデックスの4つを提案する。
論文 参考訳(メタデータ) (2023-05-11T05:02:37Z) - End-to-End Learning to Index and Search in Large Output Spaces [95.16066833532396]
Extreme Multi-label Classification (XMC) は現実世界の問題を解決するための一般的なフレームワークである。
本稿では,木系インデックスを特殊重み付きグラフベースインデックスに緩和する新しい手法を提案する。
ELIASは、数百万のラベルを持つ大規模極端分類ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-16T01:34:17Z) - Bridging the Gap Between Indexing and Retrieval for Differentiable
Search Index with Query Generation [98.02743096197402]
Differentiable Search Index (DSI) は情報検索の新たなパラダイムである。
そこで我々は, DSI-QG と呼ばれる, DSI のための簡易かつ効果的な索引付けフレームワークを提案する。
DSI-QG が元の DSI モデルより有意に優れていたことを示す。
論文 参考訳(メタデータ) (2022-06-21T06:21:23Z) - A Learned Index for Exact Similarity Search in Metric Spaces [25.330353637669386]
LIMSは、学習したインデックスを構築するために、データクラスタリングとピボットベースのデータ変換技術を使用することが提案されている。
機械学習モデルはディスク上の各データレコードの位置を近似するために開発された。
実世界のデータセットと合成データセットに関する大規模な実験は、従来の指標と比較してLIMSの優位性を示している。
論文 参考訳(メタデータ) (2022-04-21T11:24:55Z) - Standard Vs Uniform Binary Search and Their Variants in Learned Static
Indexing: The Case of the Searching on Sorted Data Benchmarking Software
Platform [0.0]
学習者にとって、bf SOSDソフトウェアに関して、標準ルーチンの使用はUniformよりも優れていることを示す。
実験の結果,一様二項探索とk-ary Searchは学習空間の節約に有用であることが示唆された。
論文 参考訳(メタデータ) (2022-01-05T11:46:16Z) - Micro-architectural Analysis of a Learned Index [0.0]
ALEXはツリーベースのインメモリインデックス構造であり、機械学習モデルの階層構造で構成されている。
その結果、ALEXはストールを少なくし、異なるワークロードにまたがるインストラクションあたりのサイクル値が低いことがわかった。
一方、ALEXのアウト・オブ・バウンド・インサートを扱うのに必要な命令の量は、リクエスト毎の命令を著しく増加させる(10X)。
論文 参考訳(メタデータ) (2021-09-17T12:13:06Z) - A Pluggable Learned Index Method via Sampling and Gap Insertion [48.900186573181735]
データベースインデックスは、データ検索を促進し、現実世界のシステムにおける幅広いアプリケーションに役立つ。
近年,隠れて有用なデータ分布を学習するために,learning indexという新しいインデックスが提案されている。
学習指標の学習効率と学習効率を高めるための2つの一般的なテクニックとプラグイン可能なテクニックを研究します。
論文 参考訳(メタデータ) (2021-01-04T07:17:23Z) - The Case for Learned Spatial Indexes [62.88514422115702]
我々は、空間範囲の問合せに答えるために、最先端の学習した多次元インデックス構造(すなわちFlood)から提案した手法を用いる。
i) パーティション内の機械学習検索は、1次元でフィルタリングを使用する場合の2進探索よりも11.79%速く、39.51%高速であることを示す。
また、2次元でフィルタする最も近い競合相手の1.23倍から1.83倍の速さで機械学習インデックスを精査する。
論文 参考訳(メタデータ) (2020-08-24T12:09:55Z) - Tsunami: A Learned Multi-dimensional Index for Correlated Data and
Skewed Workloads [29.223401893397714]
我々は,既存の学習した多次元インデックスよりも最大6倍高速なクエリ性能と最大8倍のインデックスサイズを実現する綱見を紹介した。
論文 参考訳(メタデータ) (2020-06-23T19:25:51Z) - RadixSpline: A Single-Pass Learned Index [84.84747738666263]
RadixSpline(RS)は、データに1回のパスで構築できる学習インデックスです。
RSは2つのパラメータしか持たないにもかかわらず、すべてのデータセットで競合的な結果を達成する。
論文 参考訳(メタデータ) (2020-04-30T01:56:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。