論文の概要: Bounding the Last Mile: Efficient Learned String Indexing
- arxiv url: http://arxiv.org/abs/2111.14905v1
- Date: Mon, 29 Nov 2021 19:23:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 16:21:17.219001
- Title: Bounding the Last Mile: Efficient Learned String Indexing
- Title(参考訳): 最後のマイルのバウンディング: 効率的な文字列インデックス作成
- Authors: Benjamin Spector, Andreas Kipf, Kapil Vaidya, Chi Wang, Umar Farooq
Minhas, Tim Kraska
- Abstract要約: 我々はRadixStringSpline(RSS)学習インデックス構造を導入し,文字列を効率的にインデックスする。
RSSは7-70$times$少ないメモリを使用しながら、従来の文字列インデックスのパフォーマンスに近づいたり、超えたりします。
我々の実験は、この研究が将来のメモリ集約型データベースアプリケーションに期待できるかもしれないことを示唆している。
- 参考スコア(独自算出の注目度): 26.37522617557396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the RadixStringSpline (RSS) learned index structure for
efficiently indexing strings. RSS is a tree of radix splines each indexing a
fixed number of bytes. RSS approaches or exceeds the performance of traditional
string indexes while using 7-70$\times$ less memory. RSS achieves this by using
the minimal string prefix to sufficiently distinguish the data unlike most
learned approaches which index the entire string. Additionally, the
bounded-error nature of RSS accelerates the last mile search and also enables a
memory-efficient hash-table lookup accelerator. We benchmark RSS on several
real-world string datasets against ART and HOT. Our experiments suggest this
line of research may be promising for future memory-intensive database
applications.
- Abstract(参考訳): 文字列を効率的にインデックスするRandixStringSpline(RSS)学習インデックス構造を導入する。
RSS は radix のツリーで、それぞれ固定数のバイトをインデックス化している。
RSSは7-70$\times$少ないメモリを使用しながら、従来の文字列インデックスのパフォーマンスに近づいたり、超えたりします。
RSSは最小の文字列プレフィックスを使用して、文字列全体をインデックスするほとんどの学習アプローチとは異なり、データを十分に区別する。
さらに、rssのバウンドエラー特性はラストマイル検索を加速し、メモリ効率のよいハッシュテーブルルックアップアクセラレータを可能にする。
実世界の文字列データセットのRSSをARTとHOTに対してベンチマークする。
我々の実験は、この一連の研究が将来のメモリ集約型データベースアプリケーションに有望であることを示唆している。
関連論文リスト
- Operational Advice for Dense and Sparse Retrievers: HNSW, Flat, or Inverted Indexes? [62.57689536630933]
本稿では,オープンソースのLucene検索ライブラリを用いたBEIRデータセットの実験結果について述べる。
本研究は,高密度かつ疎密なレトリバーの設計空間を理解するための,今日の検索実践者へのガイダンスを提供する。
論文 参考訳(メタデータ) (2024-09-10T12:46:23Z) - Semi-Parametric Retrieval via Binary Token Index [71.78109794895065]
Semi-parametric Vocabulary Disentangled Retrieval (SVDR) は、新しい半パラメトリック検索フレームワークである。
既存のニューラル検索手法に似た、高い有効性のための埋め込みベースのインデックスと、従来の用語ベースの検索に似た、迅速かつ費用対効果の高いセットアップを可能にするバイナリトークンインデックスの2つのタイプをサポートする。
埋め込みベースインデックスを使用する場合の高密度検索器DPRよりも3%高いトップ1検索精度と、バイナリトークンインデックスを使用する場合のBM25よりも9%高いトップ1検索精度を実現する。
論文 参考訳(メタデータ) (2024-05-03T08:34:13Z) - A Learned Index for Exact Similarity Search in Metric Spaces [25.330353637669386]
LIMSは、学習したインデックスを構築するために、データクラスタリングとピボットベースのデータ変換技術を使用することが提案されている。
機械学習モデルはディスク上の各データレコードの位置を近似するために開発された。
実世界のデータセットと合成データセットに関する大規模な実験は、従来の指標と比較してLIMSの優位性を示している。
論文 参考訳(メタデータ) (2022-04-21T11:24:55Z) - The Case for Learned Spatial Indexes [62.88514422115702]
我々は、空間範囲の問合せに答えるために、最先端の学習した多次元インデックス構造(すなわちFlood)から提案した手法を用いる。
i) パーティション内の機械学習検索は、1次元でフィルタリングを使用する場合の2進探索よりも11.79%速く、39.51%高速であることを示す。
また、2次元でフィルタする最も近い競合相手の1.23倍から1.83倍の速さで機械学習インデックスを精査する。
論文 参考訳(メタデータ) (2020-08-24T12:09:55Z) - Hands-off Model Integration in Spatial Index Structures [8.710716183434918]
本稿では,軽量機械学習モデルを用いて空間インデックスのクエリを高速化する機会について検討する。
我々は、R木において、おそらく最も広く使われている空間指標である、それと類似した手法を使うことの可能性を探ることによって、そうする。
分析で示すように、クエリの実行時間を最大60%削減でき、同時にインデックスのメモリフットプリントを90%以上削減できる。
論文 参考訳(メタデータ) (2020-06-29T22:05:28Z) - Tsunami: A Learned Multi-dimensional Index for Correlated Data and
Skewed Workloads [29.223401893397714]
我々は,既存の学習した多次元インデックスよりも最大6倍高速なクエリ性能と最大8倍のインデックスサイズを実現する綱見を紹介した。
論文 参考訳(メタデータ) (2020-06-23T19:25:51Z) - Progressively Pretrained Dense Corpus Index for Open-Domain Question
Answering [87.32442219333046]
本稿では,段落エンコーダを事前学習するための簡易かつ資源効率の高い手法を提案する。
本手法は,事前学習に7倍の計算資源を使用する既存の高密度検索法より優れている。
論文 参考訳(メタデータ) (2020-04-30T18:09:50Z) - RadixSpline: A Single-Pass Learned Index [84.84747738666263]
RadixSpline(RS)は、データに1回のパスで構築できる学習インデックスです。
RSは2つのパラメータしか持たないにもかかわらず、すべてのデータセットで競合的な結果を達成する。
論文 参考訳(メタデータ) (2020-04-30T01:56:54Z) - AutoSTR: Efficient Backbone Search for Scene Text Recognition [80.7290173000068]
テキストインスタンスの多様性とシーンの複雑さのため、シーンテキスト認識(STR)は非常に難しい。
テキスト認識性能を向上させるために,データ依存のバックボーンを検索するための自動STR(AutoSTR)を提案する。
実験によると、データ依存のバックボーンを検索することで、AutoSTRは標準ベンチマークにおける最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2020-03-14T06:51:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。