論文の概要: LIST: Learning to Index Spatio-Textual Data for Embedding based Spatial Keyword Queries
- arxiv url: http://arxiv.org/abs/2403.07331v3
- Date: Thu, 14 Nov 2024 13:04:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:21:22.588412
- Title: LIST: Learning to Index Spatio-Textual Data for Embedding based Spatial Keyword Queries
- Title(参考訳): LIST:埋め込み型空間キーワードクエリのための空間的テキストデータのインデクシング学習
- Authors: Ziqi Yin, Shanshan Feng, Shang Liu, Gao Cong, Yew Soon Ong, Bin Cui,
- Abstract要約: リスト K-kNN 空間キーワードクエリ (TkQ) は、空間的およびテキスト的関連性の両方を考慮したランキング関数に基づくオブジェクトのリストを返す。
効率的かつ効率的な指標、すなわち高品質なラベルの欠如とバランスの取れない結果を構築する上で、大きな課題が2つある。
この2つの課題に対処する新しい擬似ラベル生成手法を開発した。
- 参考スコア(独自算出の注目度): 53.843367588870585
- License:
- Abstract: With the proliferation of spatio-textual data, Top-k KNN spatial keyword queries (TkQs), which return a list of objects based on a ranking function that considers both spatial and textual relevance, have found many real-life applications. To efficiently handle TkQs, many indexes have been developed, but the effectiveness of TkQ is limited. To improve effectiveness, several deep learning models have recently been proposed, but they suffer severe efficiency issues and there are no efficient indexes specifically designed to accelerate the top-k search process for these deep learning models. To tackle these issues, we consider embedding based spatial keyword queries, which capture the semantic meaning of query keywords and object descriptions in two separate embeddings to evaluate textual relevance. Although various models can be used to generate these embeddings, no indexes have been specifically designed for such queries. To fill this gap, we propose LIST, a novel machine learning based Approximate Nearest Neighbor Search index that Learns to Index the Spatio-Textual data. LIST utilizes a new learning-to-cluster technique to group relevant queries and objects together while separating irrelevant queries and objects. There are two key challenges in building an effective and efficient index, i.e., the absence of high-quality labels and the unbalanced clustering results. We develop a novel pseudo-label generation technique to address the two challenges. Additionally, we introduce a learning based spatial relevance model that can integrates with various text relevance models to form a lightweight yet effective relevance for reranking objects retrieved by LIST.
- Abstract(参考訳): 空間的およびテキスト的関連性を考慮したランキング関数に基づくオブジェクトのリストを返却するTop-k KNN空間キーワードクエリ(TkQs)は、空間的およびテキスト的関連性の両方を考慮し、多くの現実的な応用を見出した。
TkQを効率的に扱うために、多くのインデックスが開発されているが、TkQの有効性は限られている。
有効性を改善するために、最近いくつかのディープラーニングモデルが提案されているが、それらは深刻な効率上の問題に悩まされており、これらのディープラーニングモデルのトップk検索プロセスを加速するために特別に設計された効率的なインデックスは存在しない。
これらの課題に対処するため、テキスト関連性を評価するために、クエリキーワードとオブジェクト記述の意味を2つの別々の埋め込みにキャプチャする埋め込みベースの空間キーワードクエリについて検討する。
これらの埋め込みを生成するために様々なモデルを使用することができるが、そのようなクエリのために特別に設計されたインデックスは存在しない。
このギャップを埋めるために,新しい機械学習ベースの近似近傍探索インデックスであるLISTを提案する。
LISTは、関連するクエリとオブジェクトをグループ化し、無関係なクエリとオブジェクトを分離する、新たなラーニング・トゥ・クラスタ技術を使用している。
効率的かつ効率的な指標、すなわち高品質なラベルの欠如と不均衡なクラスタリング結果を構築する上で、大きな課題が2つある。
この2つの課題に対処する新しい擬似ラベル生成手法を開発した。
さらに,学習に基づく空間関連モデルを導入し,様々なテキスト関連モデルと統合して,LISTが検索したオブジェクトの再分類のための軽量で効果的な関連性を形成する。
関連論文リスト
- Improving Topic Relevance Model by Mix-structured Summarization and LLM-based Data Augmentation [16.170841777591345]
Dianpingのようなほとんどのソーシャル検索シナリオでは、検索関連性のモデリングは常に2つの課題に直面している。
まず、クエリベースの要約と、クエリなしで文書の要約をトピック関連モデルの入力として取り上げる。
そこで我々は,大規模言語モデル(LLM)の言語理解と生成能力を利用して,既存のトレーニングデータにおけるクエリやドキュメントからのクエリを書き換え,生成する。
論文 参考訳(メタデータ) (2024-04-03T10:05:47Z) - A Survey of Learned Indexes for the Multi-dimensional Space [7.574538354949901]
本調査は学習した多次元インデックス構造に焦点を当てる。
本稿では,各学習した多次元指標を分類・分類する分類法を提案する。
我々は、この新興かつ活発な分野における、いくつかのオープンな課題と今後の研究方向性を強調します。
論文 参考訳(メタデータ) (2024-03-11T06:32:32Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - How to Index Item IDs for Recommendation Foundation Models [49.425959632372425]
Recommendation foundation modelは、リコメンデーションタスクを自然言語タスクに変換することで、リコメンデーションのために大きな言語モデル(LLM)を利用する。
過剰に長いテキストや幻覚的なレコメンデーションを生成するのを避けるために、LCM互換のアイテムIDを作成することが不可欠である。
本稿では,シーケンシャルインデックス,協調インデックス,セマンティックインデックス(コンテンツベース)インデックス,ハイブリッドインデックスの4つを提案する。
論文 参考訳(メタデータ) (2023-05-11T05:02:37Z) - WISK: A Workload-aware Learned Index for Spatial Keyword Queries [46.96314606580924]
本稿では,空間的キーワードクエリの学習指標であるWISKを提案する。
We show that WISK achieve up to 8x speedup in querying time with comparable storage overhead。
論文 参考訳(メタデータ) (2023-02-28T03:45:25Z) - Keyword Embeddings for Query Suggestion [3.7900158137749322]
本稿では,科学文献に基づいて学習したキーワード提案タスクのための2つの新しいモデルを提案する。
我々の手法はWord2VecとFastTextのアーキテクチャに適応し、文書のキーワード共起を利用してキーワード埋め込みを生成する。
我々は,タスクのベースラインよりも大幅に改善された,最先端の単語と文の埋め込みモデルに対する提案を評価した。
論文 参考訳(メタデータ) (2023-01-19T11:13:04Z) - UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question
Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。
我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文 参考訳(メタデータ) (2022-12-02T04:08:09Z) - Query Expansion Using Contextual Clue Sampling with Language Models [69.51976926838232]
本稿では,実効的なフィルタリング戦略と検索した文書の融合の組み合わせを,各文脈の生成確率に基づいて提案する。
我々の語彙マッチングに基づくアプローチは、よく確立された高密度検索モデルDPRと比較して、同様のトップ5/トップ20検索精度と上位100検索精度を実現する。
エンド・ツー・エンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクト・マッチのスコアが最も高い。
論文 参考訳(メタデータ) (2022-10-13T15:18:04Z) - A Learned Index for Exact Similarity Search in Metric Spaces [25.330353637669386]
LIMSは、学習したインデックスを構築するために、データクラスタリングとピボットベースのデータ変換技術を使用することが提案されている。
機械学習モデルはディスク上の各データレコードの位置を近似するために開発された。
実世界のデータセットと合成データセットに関する大規模な実験は、従来の指標と比較してLIMSの優位性を示している。
論文 参考訳(メタデータ) (2022-04-21T11:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。