Fugu-MT 論文翻訳(概要): Tsunami: A Learned Multi-dimensional Index for Correlated Data and Skewed Workloads

論文の概要: Tsunami: A Learned Multi-dimensional Index for Correlated Data and Skewed Workloads

arxiv url: http://arxiv.org/abs/2006.13282v1
Date: Tue, 23 Jun 2020 19:25:51 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-17 23:55:16.793831
Title: Tsunami: A Learned Multi-dimensional Index for Correlated Data and Skewed Workloads
Title（参考訳）: 津波: 相関データと歪んだ作業量の多次元学習指標
Authors: Jialin Ding and Vikram Nathan and Mohammad Alizadeh and Tim Kraska
Abstract要約: 我々は,既存の学習した多次元インデックスよりも最大6倍高速なクエリ性能と最大8倍のインデックスサイズを実現する綱見を紹介した。
参考スコア（独自算出の注目度）: 29.223401893397714
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Filtering data based on predicates is one of the most fundamental operations for any modern data warehouse. Techniques to accelerate the execution of filter expressions include clustered indexes, specialized sort orders (e.g., Z-order), multi-dimensional indexes, and, for high selectivity queries, secondary indexes. However, these schemes are hard to tune and their performance is inconsistent. Recent work on learned multi-dimensional indexes has introduced the idea of automatically optimizing an index for a particular dataset and workload. However, the performance of that work suffers in the presence of correlated data and skewed query workloads, both of which are common in real applications. In this paper, we introduce Tsunami, which addresses these limitations to achieve up to 6X faster query performance and up to 8X smaller index size than existing learned multi-dimensional indexes, in addition to up to 11X faster query performance and 170X smaller index size than optimally-tuned traditional indexes.
Abstract（参考訳）: 述語に基づくデータのフィルタリングは、現代のデータウェアハウスでもっとも基本的な操作の1つです。フィルタ式の実行を高速化するための技術としては、クラスタ化インデックス、特殊ソート順序(例えばz-order)、多次元インデックス、高選択性クエリ、セカンダリインデックスなどがある。しかし、これらのスキームはチューニングが難しく、性能に一貫性がない。学習した多次元インデックスに関する最近の研究は、特定のデータセットとワークロードのインデックスを自動的に最適化するというアイデアを導入している。しかし、その作業のパフォーマンスは相関データとスキュークエリワークロードの存在に悩まされ、どちらも実際のアプリケーションでは一般的である。本稿では,これらの制限に対処して,既存の学習した多次元インデックスよりも最大6倍高速なクエリ性能と最大8倍小型のインデックスサイズを実現し,また,最大11倍高速なクエリ性能と170倍小型のインデックスサイズを実現した。

関連論文リスト

Multiple Index Merge for Approximate Nearest Neighbor Search [14.386466486046814]
本稿では、AKNN検索のための効率的な2次元統合と複数のインデックスのマージ順序について述べる。本稿では,構造情報を活用してマージ効率を向上させるリバース隣り合うスライディング・マージ(RNSM)を提案する。実験の結果,既存のインデックスマージ法よりも5.48$times$スピードアップ,9.92$times$インデックス再構成よりも9.92$times$スピードアップが得られた。
論文参考訳（メタデータ） (2026-02-19T05:50:34Z)
Rethinking ANN-based Retrieval: Multifaceted Learnable Index for Large-scale Recommendation System [46.70111672855811]
MultiFaceted Learnable Index (MFLI)は、マルチフェイスアイテムの埋め込みとインデックスを統一されたフレームワーク内で学習するスケーラブルでリアルタイムな検索パラダイムである。 MFLIは、エンゲージメントタスクのリコールを最大11.8%改善し、コールドコンテントデリバリを最大57.29%改善し、セマンティック関連性を従来の最先端手法と比較して13.5%改善した。
論文参考訳（メタデータ） (2026-02-18T01:31:29Z)
AutoIndexer: A Reinforcement Learning-Enhanced Index Advisor Towards Scaling Workloads [0.46040036610482665]
AutoIndexerは、ワークロード圧縮、クエリ最適化、特殊RLモデルを組み合わせてインデックス選択を効果的にスケールするフレームワークである。インデックスの品質を犠牲にすることなく、検索の複雑さを大幅に低下させる。平均すると、最先端のRLベースのインデックスアドバイザを約20%のコスト削減で上回ります。
論文参考訳（メタデータ） (2025-07-30T20:38:13Z)
Differentially Private Learned Indexes [4.290415158471898]
我々は、暗号化されたデータベース上の述語クエリ、信頼された実行環境(TEE)によって確保されたクエリに効率よく応答する問題に対処する。述語クエリを高速化する現代のデータベースにおける一般的な戦略は、インデックスの使用である。残念ながら、強力なデータ依存リークのため、インデックスは暗号化されたデータベースに直接適用できない。本研究では,よりコンパクトなDPインデックスを構築するために,機械学習モデルをインデックス構造として再利用するトレンド手法である学習指標を活用することを提案する。
論文参考訳（メタデータ） (2024-10-28T16:04:58Z)
Operational Advice for Dense and Sparse Retrievers: HNSW, Flat, or Inverted Indexes? [62.57689536630933]
本稿では,オープンソースのLucene検索ライブラリを用いたBEIRデータセットの実験結果について述べる。本研究は,高密度かつ疎密なレトリバーの設計空間を理解するための,今日の検索実践者へのガイダンスを提供する。
論文参考訳（メタデータ） (2024-09-10T12:46:23Z)
Semi-Parametric Retrieval via Binary Token Index [71.78109794895065]
Semi-parametric Vocabulary Disentangled Retrieval (SVDR) は、新しい半パラメトリック検索フレームワークである。既存のニューラル検索手法に似た、高い有効性のための埋め込みベースのインデックスと、従来の用語ベースの検索に似た、迅速かつ費用対効果の高いセットアップを可能にするバイナリトークンインデックスの2つのタイプをサポートする。埋め込みベースインデックスを使用する場合の高密度検索器DPRよりも3%高いトップ1検索精度と、バイナリトークンインデックスを使用する場合のBM25よりも9%高いトップ1検索精度を実現する。
論文参考訳（メタデータ） (2024-05-03T08:34:13Z)
LIST: Learning to Index Spatio-Textual Data for Embedding based Spatial Keyword Queries [53.843367588870585]
リスト K-kNN 空間キーワードクエリ (TkQ) は、空間的およびテキスト的関連性の両方を考慮したランキング関数に基づくオブジェクトのリストを返す。効率的かつ効率的な指標、すなわち高品質なラベルの欠如とバランスの取れない結果を構築する上で、大きな課題が2つある。この2つの課題に対処する新しい擬似ラベル生成手法を開発した。
論文参考訳（メタデータ） (2024-03-12T05:32:33Z)
WISK: A Workload-aware Learned Index for Spatial Keyword Queries [46.96314606580924]
本稿では,空間的キーワードクエリの学習指標であるWISKを提案する。 We show that WISK achieve up to 8x speedup in querying time with comparable storage overhead。
論文参考訳（メタデータ） (2023-02-28T03:45:25Z)
End-to-End Learning to Index and Search in Large Output Spaces [95.16066833532396]
Extreme Multi-label Classification (XMC) は現実世界の問題を解決するための一般的なフレームワークである。本稿では,木系インデックスを特殊重み付きグラフベースインデックスに緩和する新しい手法を提案する。 ELIASは、数百万のラベルを持つ大規模極端分類ベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-10-16T01:34:17Z)
LSI: A Learned Secondary Index Structure [24.324528705706104]
本研究では,未分類データのインデックス化に学習指標を使用する最初の試みであるLearnered secondary Index(LSI)を紹介する。 LSIは最先端のセカンダリインデックスに匹敵するルックアップ性能を実現し,空間効率を最大6倍に向上することを示す。
論文参考訳（メタデータ） (2022-05-11T20:49:44Z)
A Learned Index for Exact Similarity Search in Metric Spaces [25.330353637669386]
LIMSは、学習したインデックスを構築するために、データクラスタリングとピボットベースのデータ変換技術を使用することが提案されている。機械学習モデルはディスク上の各データレコードの位置を近似するために開発された。実世界のデータセットと合成データセットに関する大規模な実験は、従来の指標と比較してLIMSの優位性を示している。
論文参考訳（メタデータ） (2022-04-21T11:24:55Z)
A Pluggable Learned Index Method via Sampling and Gap Insertion [48.900186573181735]
データベースインデックスは、データ検索を促進し、現実世界のシステムにおける幅広いアプリケーションに役立つ。近年,隠れて有用なデータ分布を学習するために,learning indexという新しいインデックスが提案されている。学習指標の学習効率と学習効率を高めるための2つの一般的なテクニックとプラグイン可能なテクニックを研究します。
論文参考訳（メタデータ） (2021-01-04T07:17:23Z)
The Case for Learned Spatial Indexes [62.88514422115702]
我々は、空間範囲の問合せに答えるために、最先端の学習した多次元インデックス構造(すなわちFlood)から提案した手法を用いる。 i) パーティション内の機械学習検索は、1次元でフィルタリングを使用する場合の2進探索よりも11.79%速く、39.51%高速であることを示す。また、2次元でフィルタする最も近い競合相手の1.23倍から1.83倍の速さで機械学習インデックスを精査する。
論文参考訳（メタデータ） (2020-08-24T12:09:55Z)
Hands-off Model Integration in Spatial Index Structures [8.710716183434918]
本稿では,軽量機械学習モデルを用いて空間インデックスのクエリを高速化する機会について検討する。我々は、R木において、おそらく最も広く使われている空間指標である、それと類似した手法を使うことの可能性を探ることによって、そうする。分析で示すように、クエリの実行時間を最大60%削減でき、同時にインデックスのメモリフットプリントを90%以上削減できる。
論文参考訳（メタデータ） (2020-06-29T22:05:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。