論文の概要: Efficient Vector Search in the Wild: One Model for Multi-K Queries
- arxiv url: http://arxiv.org/abs/2603.06159v1
- Date: Fri, 06 Mar 2026 11:09:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.527593
- Title: Efficient Vector Search in the Wild: One Model for Multi-K Queries
- Title(参考訳): 野生における効率的なベクトル探索:マルチKクエリの1モデル
- Authors: Yifan Peng, Jiafei Fan, Xingda Wei, Sijie Shen, Rong Chen, Jianning Wang, Xiaojian Luo, Wenyuan Yu, Jingren Zhou, Haibo Chen,
- Abstract要約: マルチKベクトルクエリに対して,高い精度,高い性能,低前処理コストを同時に達成する学習用トップK検索手法であるOMEGAを提案する。
同じ前処理予算の下では、OMEGAは最先端の学習方法に比べて平均レイテンシが6~33%低い。
- 参考スコア(独自算出の注目度): 28.87086865776001
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learned top-K search is a promising approach for serving vector queries with both high accuracy and performance. However, current models trained for a specific K value fail to generalize to real-world multi-K queries: they suffer from accuracy degradation (for larger Ks) and performance loss (for smaller Ks). Training the model to generalize on different Ks requires orders of magnitude more preprocessing time and is not suitable for serving vector queries in the wild. We present OMEGA, a K-generalizable learned top-K search method that simultaneously achieves high accuracy, high performance, and low preprocessing cost for multi-K vector queries. The key idea is that a base model properly trained on K=1 with our trajectory-based features can be used to accurately predict larger Ks with a dynamic refinement procedure and smaller Ks with minimal performance loss. To make our refinements efficient, we further leverage the statistical properties of top-K searches to reduce excessive model invocations. Extensive evaluations on multiple public and production datasets show that, under the same preprocessing budgets, OMEGA achieves 6-33% lower average latency compared to state-of-the-art learned search methods, while all systems achieve the same recall target. With only 16-30% of the preprocessing time, OMEGA attains 1.01-1.28x of the optimal average latency of these baselines.
- Abstract(参考訳): 学習されたトップK検索は、高い精度とパフォーマンスでベクトルクエリを提供するための有望なアプローチである。
しかしながら、特定のK値のために訓練された現在のモデルは、実際のマルチKクエリに一般化できない。
異なるKs上でモデルを一般化するためには、より桁違いの事前処理時間が必要であり、野生でのベクトルクエリの提供には適さない。
我々は,マルチKベクトルクエリに対して,高い精度,高い性能,低前処理コストを同時に実現する,K一般化可能なトップK検索手法であるOMEGAを提案する。
鍵となる考え方は、K=1で軌道に基づく特徴を持つベースモデルを用いて、ダイナミックリファインメント手順と最小性能損失の少ないKsを精度良く予測できるということである。
改良を効率的にするために、トップK検索の統計特性を活用し、過剰なモデル実行を減らす。
複数のパブリックおよびプロダクションデータセットに対する大規模な評価は、同じ前処理予算の下では、OMEGAは最先端の学習された検索手法に比べて平均遅延が6~33%低く、全てのシステムが同じリコール目標を達成することを示している。
前処理時間の16-30%しかなく、OMEGAはこれらのベースラインの最適平均遅延の1.01-1.28xに達する。
関連論文リスト
- vAttention: Verified Sparse Attention [100.98210818821688]
vAttentionは、ユーザが指定した$(epsilon, delta)$の近似精度保証(thus, confirmed)を備えた実用的なスパースアテンションメカニズムである。
vAttentionはデータセット間のスパースアテンションの質を大幅に改善することを示す。
モデルの品質を損なうことなく高速なデコードを実現するために、推論シナリオにデプロイすることができる。
論文 参考訳(メタデータ) (2025-10-07T08:46:08Z) - Predictive Analytics for Collaborators Answers, Code Quality, and Dropout on Stack Overflow [5.4414562674321765]
予測モデルの開発にStack Overflowを使用した以前の研究では、しばしば3-5モデルの限られたベンチマークや任意の選択方法が採用されていた。
本研究は,ユーザが回答する可能性のある質問数,コード品質違反,ドロップアウト状況など,3つのタスクにまたがる21のアルゴリズムを評価した。
論文 参考訳(メタデータ) (2025-06-23T06:23:12Z) - SALE : Low-bit Estimation for Efficient Sparse Attention in Long-context LLM Prefilling [24.241825495462397]
既存のスパースアテンション手法は、アテンションマップの少ない領域をスキップすることで、アテンション計算を加速する。
モデル精度を損なうことなくLLMの長文プリフィルステージを高速化する細粒度アテンション手法であるSALEを提案する。
SALEはLlama-3.1-8Bで64Kより長いシーケンスで3.36倍のスピードアップを実現し、モデル品質を維持している。
論文 参考訳(メタデータ) (2025-05-30T03:40:24Z) - EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models [64.18350535770357]
マルチモーダル推論の効率を高めるために,大規模視覚言語モデルの自動プルーニング手法を提案する。
提案手法では,所望のプルーニングポリシーを探索するために,少数のサンプルのみを活用する。
視覚的質問応答のためのScienceQA, Vizwiz, MM-vet, LLaVA-Benchデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2025-03-19T16:07:04Z) - It's all about PR -- Smart Benchmarking AI Accelerators using Performance Representatives [40.197673152937256]
統計性能モデルのトレーニングは、しばしば大量のデータを必要とするため、かなりの時間的投資となり、ハードウェアの可用性が制限された場合に困難になる。
本稿では,精度を保ちながらトレーニングサンプル数を著しく削減する性能モデリング手法を提案する。
その結果,単層推定では0.02%,トレーニングサンプル10000点未満では0.68%という平均絶対誤差(MAPE)が得られた。
論文 参考訳(メタデータ) (2024-06-12T15:34:28Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - Newer is not always better: Rethinking transferability metrics, their
peculiarities, stability and performance [5.650647159993238]
小さなカスタマイズされたデータセット上で、大規模で事前訓練された画像と言語モデルの微調整が人気を集めている。
共分散推定における統計的問題により,Hスコアの性能が低下することが示唆された。
そこで我々は,そのような設定における相対的精度に対する相関性能を補正し,評価することを推奨する。
論文 参考訳(メタデータ) (2021-10-13T17:24:12Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - APQ: Joint Search for Network Architecture, Pruning and Quantization
Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。
ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。
同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文 参考訳(メタデータ) (2020-06-15T16:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。