Fugu-MT 論文翻訳(概要): Bounding the Last Mile: Efficient Learned String Indexing

論文の概要: Bounding the Last Mile: Efficient Learned String Indexing

arxiv url: http://arxiv.org/abs/2111.14905v1
Date: Mon, 29 Nov 2021 19:23:58 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-01 16:21:17.219001
Title: Bounding the Last Mile: Efficient Learned String Indexing
Title（参考訳）: 最後のマイルのバウンディング: 効率的な文字列インデックス作成
Authors: Benjamin Spector, Andreas Kipf, Kapil Vaidya, Chi Wang, Umar Farooq Minhas, Tim Kraska
Abstract要約: 我々はRadixStringSpline(RSS)学習インデックス構造を導入し,文字列を効率的にインデックスする。 RSSは7-70$times$少ないメモリを使用しながら、従来の文字列インデックスのパフォーマンスに近づいたり、超えたりします。我々の実験は、この研究が将来のメモリ集約型データベースアプリケーションに期待できるかもしれないことを示唆している。
参考スコア（独自算出の注目度）: 26.37522617557396
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce the RadixStringSpline (RSS) learned index structure for efficiently indexing strings. RSS is a tree of radix splines each indexing a fixed number of bytes. RSS approaches or exceeds the performance of traditional string indexes while using 7-70$\times$ less memory. RSS achieves this by using the minimal string prefix to sufficiently distinguish the data unlike most learned approaches which index the entire string. Additionally, the bounded-error nature of RSS accelerates the last mile search and also enables a memory-efficient hash-table lookup accelerator. We benchmark RSS on several real-world string datasets against ART and HOT. Our experiments suggest this line of research may be promising for future memory-intensive database applications.
Abstract（参考訳）: 文字列を効率的にインデックスするRandixStringSpline(RSS)学習インデックス構造を導入する。 RSS は radix のツリーで、それぞれ固定数のバイトをインデックス化している。 RSSは7-70$\times$少ないメモリを使用しながら、従来の文字列インデックスのパフォーマンスに近づいたり、超えたりします。 RSSは最小の文字列プレフィックスを使用して、文字列全体をインデックスするほとんどの学習アプローチとは異なり、データを十分に区別する。さらに、rssのバウンドエラー特性はラストマイル検索を加速し、メモリ効率のよいハッシュテーブルルックアップアクセラレータを可能にする。実世界の文字列データセットのRSSをARTとHOTに対してベンチマークする。我々の実験は、この一連の研究が将来のメモリ集約型データベースアプリケーションに有望であることを示唆している。

関連論文リスト

Infini-gram mini: Exact n-gram Search at the Internet Scale with FM-Index [124.68209298883296]
Infini-gram miniはペタバイトレベルのテキストコーパスを検索可能にするスケーラブルなシステムである。私たちは128コアのCPUノードで、50日間で46TBのインターネットテキストをインデックスします。 Infini-gram miniのベンチマーク汚染の大規模解析における重要な利用例を示す。
論文参考訳（メタデータ） (2025-06-13T21:13:57Z)
LightRetriever: A LLM-based Hybrid Retrieval Architecture with 1000x Faster Query Inference [31.040756207765796]
大規模言語モデル(LLM)に基づくテキスト検索は、ベクトル類似性に基づいて検索クエリに関連する文書を検索する。非常に軽量なクエリエンコーダを備えた新しいLCMベースのレトリバーであるLightRetrieverを提案する。本手法は,クエリエンコーディングの1000倍以上の高速化と,エンドツーエンドの検索スループットの10倍以上の高速化を実現する。
論文参考訳（メタデータ） (2025-05-18T06:51:21Z)
EnrichIndex: Using LLMs to Enrich Retrieval Indices Offline [47.064685680644345]
実世界の検索システムは、文書が関係しているかどうかを暗黙的に判断するためにしばしば必要とされる。大規模言語モデル(LLM)は、それらの推論スキルを活用することで、そのような意味のある関連性を識別する大きな可能性を秘めている。本稿では,LLMをオフラインで使用して意味に富んだ検索指標を構築する検索手法であるEnrichIndexを紹介する。
論文参考訳（メタデータ） (2025-04-04T17:08:46Z)
DReSD: Dense Retrieval for Speculative Decoding [8.220217498103315]
投機的復号 (SD) は、効率的なドラフトモデルを用いて、Large Language Model (LLM) の生成を加速する。我々は,非パラメトリックデータストアから次のトークンを検索するSDに着目した。 Dretrieval for Speculative Decoding (DRESD) は、近距離の近接探索と文脈化トークンの埋め込みを利用する新しいフレームワークである。
論文参考訳（メタデータ） (2025-02-21T16:32:28Z)
Operational Advice for Dense and Sparse Retrievers: HNSW, Flat, or Inverted Indexes? [62.57689536630933]
本稿では,オープンソースのLucene検索ライブラリを用いたBEIRデータセットの実験結果について述べる。本研究は,高密度かつ疎密なレトリバーの設計空間を理解するための,今日の検索実践者へのガイダンスを提供する。
論文参考訳（メタデータ） (2024-09-10T12:46:23Z)
Semi-Parametric Retrieval via Binary Token Index [71.78109794895065]
Semi-parametric Vocabulary Disentangled Retrieval (SVDR) は、新しい半パラメトリック検索フレームワークである。既存のニューラル検索手法に似た、高い有効性のための埋め込みベースのインデックスと、従来の用語ベースの検索に似た、迅速かつ費用対効果の高いセットアップを可能にするバイナリトークンインデックスの2つのタイプをサポートする。埋め込みベースインデックスを使用する場合の高密度検索器DPRよりも3%高いトップ1検索精度と、バイナリトークンインデックスを使用する場合のBM25よりも9%高いトップ1検索精度を実現する。
論文参考訳（メタデータ） (2024-05-03T08:34:13Z)
A Learned Index for Exact Similarity Search in Metric Spaces [25.330353637669386]
LIMSは、学習したインデックスを構築するために、データクラスタリングとピボットベースのデータ変換技術を使用することが提案されている。機械学習モデルはディスク上の各データレコードの位置を近似するために開発された。実世界のデータセットと合成データセットに関する大規模な実験は、従来の指標と比較してLIMSの優位性を示している。
論文参考訳（メタデータ） (2022-04-21T11:24:55Z)
The Case for Learned Spatial Indexes [62.88514422115702]
我々は、空間範囲の問合せに答えるために、最先端の学習した多次元インデックス構造(すなわちFlood)から提案した手法を用いる。 i) パーティション内の機械学習検索は、1次元でフィルタリングを使用する場合の2進探索よりも11.79%速く、39.51%高速であることを示す。また、2次元でフィルタする最も近い競合相手の1.23倍から1.83倍の速さで機械学習インデックスを精査する。
論文参考訳（メタデータ） (2020-08-24T12:09:55Z)
Hands-off Model Integration in Spatial Index Structures [8.710716183434918]
本稿では,軽量機械学習モデルを用いて空間インデックスのクエリを高速化する機会について検討する。我々は、R木において、おそらく最も広く使われている空間指標である、それと類似した手法を使うことの可能性を探ることによって、そうする。分析で示すように、クエリの実行時間を最大60%削減でき、同時にインデックスのメモリフットプリントを90%以上削減できる。
論文参考訳（メタデータ） (2020-06-29T22:05:28Z)
Tsunami: A Learned Multi-dimensional Index for Correlated Data and Skewed Workloads [29.223401893397714]
我々は,既存の学習した多次元インデックスよりも最大6倍高速なクエリ性能と最大8倍のインデックスサイズを実現する綱見を紹介した。
論文参考訳（メタデータ） (2020-06-23T19:25:51Z)
Progressively Pretrained Dense Corpus Index for Open-Domain Question Answering [87.32442219333046]
本稿では,段落エンコーダを事前学習するための簡易かつ資源効率の高い手法を提案する。本手法は,事前学習に7倍の計算資源を使用する既存の高密度検索法より優れている。
論文参考訳（メタデータ） (2020-04-30T18:09:50Z)
RadixSpline: A Single-Pass Learned Index [84.84747738666263]
RadixSpline(RS)は、データに1回のパスで構築できる学習インデックスです。 RSは2つのパラメータしか持たないにもかかわらず、すべてのデータセットで競合的な結果を達成する。
論文参考訳（メタデータ） (2020-04-30T01:56:54Z)
AutoSTR: Efficient Backbone Search for Scene Text Recognition [80.7290173000068]
テキストインスタンスの多様性とシーンの複雑さのため、シーンテキスト認識(STR)は非常に難しい。テキスト認識性能を向上させるために,データ依存のバックボーンを検索するための自動STR(AutoSTR)を提案する。実験によると、データ依存のバックボーンを検索することで、AutoSTRは標準ベンチマークにおける最先端のアプローチより優れている。
論文参考訳（メタデータ） (2020-03-14T06:51:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。