論文の概要: WISK: A Workload-aware Learned Index for Spatial Keyword Queries
- arxiv url: http://arxiv.org/abs/2302.14287v2
- Date: Fri, 14 Apr 2023 02:56:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-17 16:18:38.545210
- Title: WISK: A Workload-aware Learned Index for Spatial Keyword Queries
- Title(参考訳): WISK:空間キーワードクエリのためのワークロード対応学習指標
- Authors: Yufan Sheng, Xin Cao, Yixiang Fang, Kaiqi Zhao, Jianzhong Qi, Gao
Cong, Wenjie Zhang
- Abstract要約: 本稿では,空間的キーワードクエリの学習指標であるWISKを提案する。
We show that WISK achieve up to 8x speedup in querying time with comparable storage overhead。
- 参考スコア(独自算出の注目度): 46.96314606580924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial objects often come with textual information, such as Points of
Interest (POIs) with their descriptions, which are referred to as geo-textual
data. To retrieve such data, spatial keyword queries that take into account
both spatial proximity and textual relevance have been extensively studied.
Existing indexes designed for spatial keyword queries are mostly built based on
the geo-textual data without considering the distribution of queries already
received. However, previous studies have shown that utilizing the known query
distribution can improve the index structure for future query processing. In
this paper, we propose WISK, a learned index for spatial keyword queries, which
self-adapts for optimizing querying costs given a query workload. One key
challenge is how to utilize both structured spatial attributes and unstructured
textual information during learning the index. We first divide the data objects
into partitions, aiming to minimize the processing costs of the given query
workload. We prove the NP-hardness of the partitioning problem and propose a
machine learning model to find the optimal partitions. Then, to achieve more
pruning power, we build a hierarchical structure based on the generated
partitions in a bottom-up manner with a reinforcement learning-based approach.
We conduct extensive experiments on real-world datasets and query workloads
with various distributions, and the results show that WISK outperforms all
competitors, achieving up to 8x speedup in querying time with comparable
storage overhead.
- Abstract(参考訳): 空間オブジェクトは、しばしば、地理テクスチュアルデータ(geo-textual data)と呼ばれる、その記述を伴うPOI(Points of Interest)のようなテキスト情報を持ってくる。
このようなデータを検索するために、空間的近接性とテキスト的関連性の両方を考慮した空間的キーワードクエリが広く研究されている。
空間的キーワードクエリ用に設計された既存のインデックスは、すでに受信したクエリの分布を考慮せずに、ジオテキストデータに基づいて構築されている。
しかし、従来の研究では、既知のクエリ分布を利用することで、将来のクエリ処理のインデックス構造を改善することが示されている。
本稿では,問合せ作業負荷に対して,問合せコストを最適化するために自己適応する空間キーワード問合せの学習インデックスであるwiskを提案する。
重要な課題の1つは、インデックスの学習中に構造化された空間属性と構造化されていないテキスト情報の両方を利用する方法である。
まず、与えられたクエリワークロードの処理コストを最小限に抑えるために、データオブジェクトをパーティションに分割する。
分割問題のNP硬度を証明し、最適分割を見つけるための機械学習モデルを提案する。
そして,より多くの刈り取り力を達成するために,強化学習に基づくアプローチにより,生成した分割に基づいてボトムアップ方式で階層構造を構築する。
実世界のデータセットとクエリワークロードをさまざまなディストリビューションで広範な実験を行い、その結果、WISKは競合企業すべてより優れており、ストレージオーバーヘッドに匹敵するクエリ時間の最大8倍のスピードアップを実現しています。
関連論文リスト
- Operational Advice for Dense and Sparse Retrievers: HNSW, Flat, or Inverted Indexes? [62.57689536630933]
本稿では,オープンソースのLucene検索ライブラリを用いたBEIRデータセットの実験結果について述べる。
本研究は,高密度かつ疎密なレトリバーの設計空間を理解するための,今日の検索実践者へのガイダンスを提供する。
論文 参考訳(メタデータ) (2024-09-10T12:46:23Z) - QueryBuilder: Human-in-the-Loop Query Development for Information Retrieval [12.543590253664492]
我々は、$textitQueryBuilder$という、インタラクティブな新しいシステムを提示します。
初心者の英語を話すユーザは、少量の労力でクエリを作成できる。
ユーザの情報要求に応じた言語間情報検索クエリを迅速に開発する。
論文 参考訳(メタデータ) (2024-09-07T00:46:58Z) - User Intent Recognition and Semantic Cache Optimization-Based Query Processing Framework using CFLIS and MGR-LAU [0.0]
この研究は、拡張QPのためのクエリにおける情報、ナビゲーション、およびトランザクションベースのインテントを分析した。
効率的なQPのために、データはEpanechnikov Kernel-Ordering Pointsを用いて構造化され、クラスタリング構造(EK-OPTICS)を同定する。
抽出された特徴、検出された意図、構造化データは、MGR-LAU(Multi-head Gated Recurrent Learnable Attention Unit)に入力される。
論文 参考訳(メタデータ) (2024-06-06T20:28:05Z) - LIST: Learning to Index Spatio-Textual Data for Embedding based Spatial Keyword Queries [53.843367588870585]
リスト K-kNN 空間キーワードクエリ (TkQ) は、空間的およびテキスト的関連性の両方を考慮したランキング関数に基づくオブジェクトのリストを返す。
効率的かつ効率的な指標、すなわち高品質なラベルの欠如とバランスの取れない結果を構築する上で、大きな課題が2つある。
この2つの課題に対処する新しい擬似ラベル生成手法を開発した。
論文 参考訳(メタデータ) (2024-03-12T05:32:33Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - A Learned Index for Exact Similarity Search in Metric Spaces [25.330353637669386]
LIMSは、学習したインデックスを構築するために、データクラスタリングとピボットベースのデータ変換技術を使用することが提案されている。
機械学習モデルはディスク上の各データレコードの位置を近似するために開発された。
実世界のデータセットと合成データセットに関する大規模な実験は、従来の指標と比較してLIMSの優位性を示している。
論文 参考訳(メタデータ) (2022-04-21T11:24:55Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z) - The Case for Learned Spatial Indexes [62.88514422115702]
我々は、空間範囲の問合せに答えるために、最先端の学習した多次元インデックス構造(すなわちFlood)から提案した手法を用いる。
i) パーティション内の機械学習検索は、1次元でフィルタリングを使用する場合の2進探索よりも11.79%速く、39.51%高速であることを示す。
また、2次元でフィルタする最も近い競合相手の1.23倍から1.83倍の速さで機械学習インデックスを精査する。
論文 参考訳(メタデータ) (2020-08-24T12:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。