論文の概要: WISK: A Workload-aware Learned Index for Spatial Keyword Queries
- arxiv url: http://arxiv.org/abs/2302.14287v2
- Date: Fri, 14 Apr 2023 02:56:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-17 16:18:38.545210
- Title: WISK: A Workload-aware Learned Index for Spatial Keyword Queries
- Title(参考訳): WISK:空間キーワードクエリのためのワークロード対応学習指標
- Authors: Yufan Sheng, Xin Cao, Yixiang Fang, Kaiqi Zhao, Jianzhong Qi, Gao
Cong, Wenjie Zhang
- Abstract要約: 本稿では,空間的キーワードクエリの学習指標であるWISKを提案する。
We show that WISK achieve up to 8x speedup in querying time with comparable storage overhead。
- 参考スコア(独自算出の注目度): 46.96314606580924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial objects often come with textual information, such as Points of
Interest (POIs) with their descriptions, which are referred to as geo-textual
data. To retrieve such data, spatial keyword queries that take into account
both spatial proximity and textual relevance have been extensively studied.
Existing indexes designed for spatial keyword queries are mostly built based on
the geo-textual data without considering the distribution of queries already
received. However, previous studies have shown that utilizing the known query
distribution can improve the index structure for future query processing. In
this paper, we propose WISK, a learned index for spatial keyword queries, which
self-adapts for optimizing querying costs given a query workload. One key
challenge is how to utilize both structured spatial attributes and unstructured
textual information during learning the index. We first divide the data objects
into partitions, aiming to minimize the processing costs of the given query
workload. We prove the NP-hardness of the partitioning problem and propose a
machine learning model to find the optimal partitions. Then, to achieve more
pruning power, we build a hierarchical structure based on the generated
partitions in a bottom-up manner with a reinforcement learning-based approach.
We conduct extensive experiments on real-world datasets and query workloads
with various distributions, and the results show that WISK outperforms all
competitors, achieving up to 8x speedup in querying time with comparable
storage overhead.
- Abstract(参考訳): 空間オブジェクトは、しばしば、地理テクスチュアルデータ(geo-textual data)と呼ばれる、その記述を伴うPOI(Points of Interest)のようなテキスト情報を持ってくる。
このようなデータを検索するために、空間的近接性とテキスト的関連性の両方を考慮した空間的キーワードクエリが広く研究されている。
空間的キーワードクエリ用に設計された既存のインデックスは、すでに受信したクエリの分布を考慮せずに、ジオテキストデータに基づいて構築されている。
しかし、従来の研究では、既知のクエリ分布を利用することで、将来のクエリ処理のインデックス構造を改善することが示されている。
本稿では,問合せ作業負荷に対して,問合せコストを最適化するために自己適応する空間キーワード問合せの学習インデックスであるwiskを提案する。
重要な課題の1つは、インデックスの学習中に構造化された空間属性と構造化されていないテキスト情報の両方を利用する方法である。
まず、与えられたクエリワークロードの処理コストを最小限に抑えるために、データオブジェクトをパーティションに分割する。
分割問題のNP硬度を証明し、最適分割を見つけるための機械学習モデルを提案する。
そして,より多くの刈り取り力を達成するために,強化学習に基づくアプローチにより,生成した分割に基づいてボトムアップ方式で階層構造を構築する。
実世界のデータセットとクエリワークロードをさまざまなディストリビューションで広範な実験を行い、その結果、WISKは競合企業すべてより優れており、ストレージオーバーヘッドに匹敵するクエリ時間の最大8倍のスピードアップを実現しています。
関連論文リスト
- Dense X Retrieval: What Retrieval Granularity Should We Use? [59.359325855708974]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
提案手法はテキスト内の原子式として定義され,それぞれが別個のファクトイドをカプセル化している。
その結果,命題に基づく検索は,従来の通訳法や文による検索方法よりも格段に優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - Decoding a Neural Retriever's Latent Space for Query Suggestion [28.410064376447718]
本稿では,有意なクエリをその潜在表現から復号することが可能であること,また,潜在空間の正しい方向に移動すると,関連する段落を検索するクエリを復号することができることを示す。
クエリデコーダを用いて、MSMarcoのクエリ再構成の大規模な合成データセットを生成する。
このデータに基づいて、クエリー提案の適用のために擬似関連フィードバック(PRF)T5モデルを訓練する。
論文 参考訳(メタデータ) (2022-10-21T16:19:31Z) - A Learned Index for Exact Similarity Search in Metric Spaces [25.330353637669386]
LIMSは、学習したインデックスを構築するために、データクラスタリングとピボットベースのデータ変換技術を使用することが提案されている。
機械学習モデルはディスク上の各データレコードの位置を近似するために開発された。
実世界のデータセットと合成データセットに関する大規模な実験は、従来の指標と比較してLIMSの優位性を示している。
論文 参考訳(メタデータ) (2022-04-21T11:24:55Z) - Graph Enhanced BERT for Query Understanding [55.90334539898102]
クエリ理解は、ユーザの検索意図を探索し、ユーザが最も望まれる情報を発見できるようにする上で、重要な役割を果たす。
近年、プレトレーニング言語モデル (PLM) は様々な自然言語処理タスクを進歩させてきた。
本稿では,クエリコンテンツとクエリグラフの両方を活用可能な,グラフ強化事前学習フレームワークGE-BERTを提案する。
論文 参考訳(メタデータ) (2022-04-03T16:50:30Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z) - KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。
KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。
共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文 参考訳(メタデータ) (2020-09-04T15:32:19Z) - The Case for Learned Spatial Indexes [62.88514422115702]
我々は、空間範囲の問合せに答えるために、最先端の学習した多次元インデックス構造(すなわちFlood)から提案した手法を用いる。
i) パーティション内の機械学習検索は、1次元でフィルタリングを使用する場合の2進探索よりも11.79%速く、39.51%高速であることを示す。
また、2次元でフィルタする最も近い競合相手の1.23倍から1.83倍の速さで機械学習インデックスを精査する。
論文 参考訳(メタデータ) (2020-08-24T12:09:55Z) - Learning from Data to Speed-up Sorted Table Search Procedures:
Methodology and Practical Guidelines [0.0]
機械学習技術の拡張が、このようなスピードアップにどのような貢献をできるかを調査する。
我々は、CPUおよびGPUコンピューティングの両方を考慮して、後者が前者に対して利益を上げることができるシナリオを特徴づける。
実際、ここで提案した学習表検索手順を自然に補完するアルゴリズム的パラダイムを定式化し、既知の学習表検索手順の大部分を、単純な線形回帰を近似した「学習フェーズ」を持つものとして特徴付ける。
論文 参考訳(メタデータ) (2020-07-20T16:26:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。