論文の概要: Timehash: Hierarchical Time Indexing for Efficient Business Hours Search
- arxiv url: http://arxiv.org/abs/2603.02941v1
- Date: Tue, 03 Mar 2026 12:49:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.795615
- Title: Timehash: Hierarchical Time Indexing for Efficient Business Hours Search
- Title(参考訳): Timehash: 効率的なビジネス時間検索のための階層的な時間インデックス作成
- Authors: Jinoh Kim, Jaewon Son,
- Abstract要約: Timehashは、マイクロレベルインデックスよりも99%以上インデックスサイズを削減できる新しい階層的時間インデックスアルゴリズムである。
提案手法は,検索システム,eコマース,予約プラットフォームにおける時間的フィルタリング問題に対して一般化可能である。
- 参考スコア(独自算出の注目度): 1.5182980962212504
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Temporal range filtering is a critical operation in large-scale search systems, particularly for location-based services that need to filter businesses by operating hours. Traditional approaches either suffer from poor query performance (scope filtering) or index size explosion (minute-level indexing). We present Timehash, a novel hierarchical time indexing algorithm that achieves over 99% reduction in index size compared to minute-level indexing while maintaining 100% precision. Timehash employs a flexible multi-resolution strategy with customizable hierarchical levels. Through empirical analysis on distributions from 12.6 million business records of a production location search service, we demonstrate a data-driven methodology for selecting optimal hierarchies tailored to specific data distributions. We evaluated Timehash on up to 12.6 million synthetic POIs generated from production distributions. Experimental results show that a five-level hierarchy reduces index terms to 5.6 per document (99.1% reduction versus minute-level indexing), with zero false positives and zero false negatives. Scalability benchmarks confirm constant per-document cost from 100K to 12.6M POIs, while supporting complex scenarios such as break times and irregular schedules. Our approach is generalizable to various temporal filtering problems in search systems, e-commerce, and reservation platforms.
- Abstract(参考訳): 時間範囲フィルタリングは大規模検索システムにおいて重要な操作であり、特に営業時間によるビジネスのフィルタリングを必要とする位置情報ベースのサービスにおいて重要である。
従来のアプローチでは、クエリパフォーマンスの悪い(スコープフィルタリング)か、インデックスサイズの爆発(分単位のインデックス化)に悩まされていた。
我々は、100%精度を維持しながら、分レベルのインデックス化と比較して、インデックスサイズを99%以上削減する新しい階層的時間インデックスアルゴリズムであるTimehashを提案する。
Timehashでは、カスタマイズ可能な階層レベルを備えたフレキシブルなマルチ解像度戦略を採用している。
生産地検索サービスの1260万件の営業記録の分布を実証分析することにより,特定のデータ分布に適した最適な階層を選択するためのデータ駆動手法を実証する。
生産分布から生成した1260万個の合成POIを用いてTimehashを評価した。
実験結果から、5レベル階層は文書ごとのインデックス語を5.6に減らし(99.1%の削減と分レベルのインデックス化)、偽陽性はゼロ、偽陰性はゼロであることがわかった。
スケーラビリティベンチマークは、ドキュメント毎のコストを100Kから12.6M POIに保証すると同時に、ブレークタイムや不規則スケジュールといった複雑なシナリオをサポートする。
提案手法は,検索システム,eコマース,予約プラットフォームにおける時間的フィルタリング問題に対して一般化可能である。
関連論文リスト
- Multiple Index Merge for Approximate Nearest Neighbor Search [14.386466486046814]
本稿では、AKNN検索のための効率的な2次元統合と複数のインデックスのマージ順序について述べる。
本稿では,構造情報を活用してマージ効率を向上させるリバース隣り合うスライディング・マージ(RNSM)を提案する。
実験の結果,既存のインデックスマージ法よりも5.48$times$スピードアップ,9.92$times$インデックス再構成よりも9.92$times$スピードアップが得られた。
論文 参考訳(メタデータ) (2026-02-19T05:50:34Z) - Curator: Efficient Vector Search with Low-Selectivity Filters [12.774238654446032]
グラフベースのインデックスは、未フィルタリングANNSでは最先端のパフォーマンスを実現するが、低選択性フィルタリングクエリでは接続性の低下に遭遇する。
近年の研究では、グラフ度を拡大することでこの問題に対処するグラフインデックスが提案されている。
低選択性フィルタANNSに対する既存のグラフベースのアプローチを補完する分割型インデックスであるCuratorを提案する。
論文 参考訳(メタデータ) (2026-01-03T21:35:01Z) - LEANN: A Low-Storage Vector Index [70.13770593890655]
LEANNは、リソース制約されたパーソナルデバイスに最適化された、ストレージ効率の近い近接検索インデックスである。
評価の結果,LEANNは原データの5%以下までインデックスサイズを縮小し,標準インデックスの最大50倍のストレージを実現した。
論文 参考訳(メタデータ) (2025-06-09T22:43:30Z) - Billion-scale Similarity Search Using a Hybrid Indexing Approach with Advanced Filtering [49.1574468325115]
本稿では,CPU推論に最適化された数十億規模のデータセット上での複雑なフィルタリング機能を備えた類似度探索のための新しい手法を提案する。
提案手法は,従来のIVF-Flatインデックス構造を拡張し,多次元フィルタを統合する。
提案アルゴリズムは,高次元空間での高速な探索を可能にするため,高密度埋め込みと離散フィルタ特性を組み合わせる。
論文 参考訳(メタデータ) (2025-01-23T07:47:00Z) - Efficient Long Context Language Model Retrieval with Compression [57.09163579304332]
情報検索のための新しいパラダイムとしてLong Context Language Models (LCLM)が登場した。
本稿では,LCLM検索に適した新しい圧縮手法を提案する。
また,CoLoRはテキスト内サイズを1.91倍に圧縮し,検索性能を6%向上することを示した。
論文 参考訳(メタデータ) (2024-12-24T07:30:55Z) - Operational Advice for Dense and Sparse Retrievers: HNSW, Flat, or Inverted Indexes? [62.57689536630933]
本稿では,オープンソースのLucene検索ライブラリを用いたBEIRデータセットの実験結果について述べる。
本研究は,高密度かつ疎密なレトリバーの設計空間を理解するための,今日の検索実践者へのガイダンスを提供する。
論文 参考訳(メタデータ) (2024-09-10T12:46:23Z) - Unified Functional Hashing in Automatic Machine Learning [58.77232199682271]
高速に統一された関数型ハッシュを用いることで,大きな効率向上が得られることを示す。
私たちのハッシュは"機能的"であり、表現やコードが異なる場合でも同等の候補を識別します。
ニューラルアーキテクチャ検索やアルゴリズム発見など、複数のAutoMLドメインで劇的な改善がなされている。
論文 参考訳(メタデータ) (2023-02-10T18:50:37Z) - A Learned Index for Exact Similarity Search in Metric Spaces [25.330353637669386]
LIMSは、学習したインデックスを構築するために、データクラスタリングとピボットベースのデータ変換技術を使用することが提案されている。
機械学習モデルはディスク上の各データレコードの位置を近似するために開発された。
実世界のデータセットと合成データセットに関する大規模な実験は、従来の指標と比較してLIMSの優位性を示している。
論文 参考訳(メタデータ) (2022-04-21T11:24:55Z) - The Case for Learned Spatial Indexes [62.88514422115702]
我々は、空間範囲の問合せに答えるために、最先端の学習した多次元インデックス構造(すなわちFlood)から提案した手法を用いる。
i) パーティション内の機械学習検索は、1次元でフィルタリングを使用する場合の2進探索よりも11.79%速く、39.51%高速であることを示す。
また、2次元でフィルタする最も近い競合相手の1.23倍から1.83倍の速さで機械学習インデックスを精査する。
論文 参考訳(メタデータ) (2020-08-24T12:09:55Z) - Tsunami: A Learned Multi-dimensional Index for Correlated Data and
Skewed Workloads [29.223401893397714]
我々は,既存の学習した多次元インデックスよりも最大6倍高速なクエリ性能と最大8倍のインデックスサイズを実現する綱見を紹介した。
論文 参考訳(メタデータ) (2020-06-23T19:25:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。