Fugu-MT 論文翻訳(概要): WISK: A Workload-aware Learned Index for Spatial Keyword Queries

論文の概要: WISK: A Workload-aware Learned Index for Spatial Keyword Queries

arxiv url: http://arxiv.org/abs/2302.14287v2
Date: Fri, 14 Apr 2023 02:56:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-17 16:18:38.545210
Title: WISK: A Workload-aware Learned Index for Spatial Keyword Queries
Title（参考訳）: WISK:空間キーワードクエリのためのワークロード対応学習指標
Authors: Yufan Sheng, Xin Cao, Yixiang Fang, Kaiqi Zhao, Jianzhong Qi, Gao Cong, Wenjie Zhang
Abstract要約: 本稿では,空間的キーワードクエリの学習指標であるWISKを提案する。 We show that WISK achieve up to 8x speedup in querying time with comparable storage overhead。
参考スコア（独自算出の注目度）: 46.96314606580924
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Spatial objects often come with textual information, such as Points of Interest (POIs) with their descriptions, which are referred to as geo-textual data. To retrieve such data, spatial keyword queries that take into account both spatial proximity and textual relevance have been extensively studied. Existing indexes designed for spatial keyword queries are mostly built based on the geo-textual data without considering the distribution of queries already received. However, previous studies have shown that utilizing the known query distribution can improve the index structure for future query processing. In this paper, we propose WISK, a learned index for spatial keyword queries, which self-adapts for optimizing querying costs given a query workload. One key challenge is how to utilize both structured spatial attributes and unstructured textual information during learning the index. We first divide the data objects into partitions, aiming to minimize the processing costs of the given query workload. We prove the NP-hardness of the partitioning problem and propose a machine learning model to find the optimal partitions. Then, to achieve more pruning power, we build a hierarchical structure based on the generated partitions in a bottom-up manner with a reinforcement learning-based approach. We conduct extensive experiments on real-world datasets and query workloads with various distributions, and the results show that WISK outperforms all competitors, achieving up to 8x speedup in querying time with comparable storage overhead.
Abstract（参考訳）: 空間オブジェクトは、しばしば、地理テクスチュアルデータ(geo-textual data)と呼ばれる、その記述を伴うPOI(Points of Interest)のようなテキスト情報を持ってくる。このようなデータを検索するために、空間的近接性とテキスト的関連性の両方を考慮した空間的キーワードクエリが広く研究されている。空間的キーワードクエリ用に設計された既存のインデックスは、すでに受信したクエリの分布を考慮せずに、ジオテキストデータに基づいて構築されている。しかし、従来の研究では、既知のクエリ分布を利用することで、将来のクエリ処理のインデックス構造を改善することが示されている。本稿では,問合せ作業負荷に対して,問合せコストを最適化するために自己適応する空間キーワード問合せの学習インデックスであるwiskを提案する。重要な課題の1つは、インデックスの学習中に構造化された空間属性と構造化されていないテキスト情報の両方を利用する方法である。まず、与えられたクエリワークロードの処理コストを最小限に抑えるために、データオブジェクトをパーティションに分割する。分割問題のNP硬度を証明し、最適分割を見つけるための機械学習モデルを提案する。そして,より多くの刈り取り力を達成するために,強化学習に基づくアプローチにより,生成した分割に基づいてボトムアップ方式で階層構造を構築する。実世界のデータセットとクエリワークロードをさまざまなディストリビューションで広範な実験を行い、その結果、WISKは競合企業すべてより優れており、ストレージオーバーヘッドに匹敵するクエリ時間の最大8倍のスピードアップを実現しています。

関連論文リスト

Reasoning-enhanced Query Understanding through Decomposition and Interpretation [87.56450566014625]
ReDIは、分解と解釈によるクエリ理解のための推論強化アプローチである。我々は,大規模検索エンジンから実世界の複雑なクエリの大規模データセットをコンパイルした。 BRIGHT と BEIR の実験により、ReDI はスパースと密度の高い検索パラダイムの両方において、強いベースラインを一貫して超えることを示した。
論文参考訳（メタデータ） (2025-09-08T10:58:42Z)
How good are LLMs at Retrieving Documents in a Specific Domain? [3.282961543904818]
本稿では,ドメイン固有の評価データセットをキュレートして検索システムの性能を解析する自動手法を提案する。本研究では,Large Language Models (LLMs) を用いたRAG(Retrieval of Augmented Generation)を組み込んで,自然言語クエリを用いた環境領域データの高品質な検索を行う。
論文参考訳（メタデータ） (2025-08-25T19:47:21Z)
ELITE: Embedding-Less retrieval with Iterative Text Exploration [5.8851517822935335]
大規模言語モデル(LLM)は自然言語処理において顕著な進歩を遂げた。長期のコンテキスト制約を維持する能力は、ドキュメントレベルやマルチターンタスクのパフォーマンスを制限します。
論文参考訳（メタデータ） (2025-05-17T08:48:43Z)
Imagine All The Relevance: Scenario-Profiled Indexing with Knowledge Expansion for Dense Retrieval [16.01726399448271]
SPIKEは文書をシナリオに整理し、仮説情報と文書の内容の間の暗黙の関係を明らかにするために必要な推論プロセスをカプセル化する。推論中、SPIKEは文書レベルの関連性とともにシナリオレベルの関連性を導入し、推論を意識した検索を可能にする。
論文参考訳（メタデータ） (2025-03-29T10:36:54Z)
Operational Advice for Dense and Sparse Retrievers: HNSW, Flat, or Inverted Indexes? [62.57689536630933]
本稿では,オープンソースのLucene検索ライブラリを用いたBEIRデータセットの実験結果について述べる。本研究は,高密度かつ疎密なレトリバーの設計空間を理解するための,今日の検索実践者へのガイダンスを提供する。
論文参考訳（メタデータ） (2024-09-10T12:46:23Z)
QueryBuilder: Human-in-the-Loop Query Development for Information Retrieval [12.543590253664492]
我々は、$textitQueryBuilder$という、インタラクティブな新しいシステムを提示します。初心者の英語を話すユーザは、少量の労力でクエリを作成できる。ユーザの情報要求に応じた言語間情報検索クエリを迅速に開発する。
論文参考訳（メタデータ） (2024-09-07T00:46:58Z)
User Intent Recognition and Semantic Cache Optimization-Based Query Processing Framework using CFLIS and MGR-LAU [0.0]
この研究は、拡張QPのためのクエリにおける情報、ナビゲーション、およびトランザクションベースのインテントを分析した。効率的なQPのために、データはEpanechnikov Kernel-Ordering Pointsを用いて構造化され、クラスタリング構造(EK-OPTICS)を同定する。抽出された特徴、検出された意図、構造化データは、MGR-LAU(Multi-head Gated Recurrent Learnable Attention Unit)に入力される。
論文参考訳（メタデータ） (2024-06-06T20:28:05Z)
LIST: Learning to Index Spatio-Textual Data for Embedding based Spatial Keyword Queries [53.843367588870585]
リスト K-kNN 空間キーワードクエリ (TkQ) は、空間的およびテキスト的関連性の両方を考慮したランキング関数に基づくオブジェクトのリストを返す。効率的かつ効率的な指標、すなわち高品質なラベルの欠如とバランスの取れない結果を構築する上で、大きな課題が2つある。この2つの課題に対処する新しい擬似ラベル生成手法を開発した。
論文参考訳（メタデータ） (2024-03-12T05:32:33Z)
Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。本稿では,高密度検索のための新しい検索ユニット,命題を提案する。実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文参考訳（メタデータ） (2023-12-11T18:57:35Z)
A Learned Index for Exact Similarity Search in Metric Spaces [25.330353637669386]
LIMSは、学習したインデックスを構築するために、データクラスタリングとピボットベースのデータ変換技術を使用することが提案されている。機械学習モデルはディスク上の各データレコードの位置を近似するために開発された。実世界のデータセットと合成データセットに関する大規模な実験は、従来の指標と比較してLIMSの優位性を示している。
論文参考訳（メタデータ） (2022-04-21T11:24:55Z)
Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文参考訳（メタデータ） (2021-05-31T21:14:58Z)
The Case for Learned Spatial Indexes [62.88514422115702]
我々は、空間範囲の問合せに答えるために、最先端の学習した多次元インデックス構造(すなわちFlood)から提案した手法を用いる。 i) パーティション内の機械学習検索は、1次元でフィルタリングを使用する場合の2進探索よりも11.79%速く、39.51%高速であることを示す。また、2次元でフィルタする最も近い競合相手の1.23倍から1.83倍の速さで機械学習インデックスを精査する。
論文参考訳（メタデータ） (2020-08-24T12:09:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。