論文の概要: NFL: Robust Learned Index via Distribution Transformation
- arxiv url: http://arxiv.org/abs/2205.11807v1
- Date: Tue, 24 May 2022 06:03:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-25 15:21:52.982884
- Title: NFL: Robust Learned Index via Distribution Transformation
- Title(参考訳): NFL: 分散トランスフォーメーションによるロバスト学習インデックス
- Authors: Shangyu Wu, Yufei Cui, Jinghuan Yu, Xuan Sun, Tei-Wei Kuo, Chun Jason
Xue
- Abstract要約: 本稿では、学習インデックスを構築する前に、鍵にテキスト分布変換を適用することで近似問題に取り組む。
2段階の正規化フローベース学習インデックスフレームワーク (NFL) が提案され、最初に元の複雑な鍵分布をほぼ一様に変換し、次に変換された鍵を利用する学習インデックスを構築する。
変換キーの特性に基づいて、ロバストなアフターフロー学習指標(AFLI)を提案する。
- 参考スコア(独自算出の注目度): 14.812854942243503
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent works on learned index open a new direction for the indexing field.
The key insight of the learned index is to approximate the mapping between keys
and positions with piece-wise linear functions. Such methods require
partitioning key space for a better approximation. Although lots of heuristics
are proposed to improve the approximation quality, the bottleneck is that the
segmentation overheads could hinder the overall performance. This paper tackles
the approximation problem by applying a \textit{distribution transformation} to
the keys before constructing the learned index. A two-stage
Normalizing-Flow-based Learned index framework (NFL) is proposed, which first
transforms the original complex key distribution into a near-uniform
distribution, then builds a learned index leveraging the transformed keys. For
effective distribution transformation, we propose a Numerical Normalizing Flow
(Numerical NF). Based on the characteristics of the transformed keys, we
propose a robust After-Flow Learned Index (AFLI). To validate the performance,
comprehensive evaluations are conducted on both synthetic and real-world
workloads, which shows that the proposed NFL produces the highest throughput
and the lowest tail latency compared to the state-of-the-art learned indexes.
- Abstract(参考訳): 学習指標に関する最近の研究は、インデックスフィールドの新しい方向を開く。
学習指標の鍵となる洞察は、分割線形関数を持つキーと位置のマッピングを近似することである。
このような方法は、より良い近似のためにキー空間を分割する必要がある。
近似品質を改善するために多くのヒューリスティックが提案されているが、ボトルネックはセグメント化のオーバーヘッドが全体的な性能を妨げることである。
本稿では,学習インデックスを構成する前に,キーに \textit{distribution transformation} を適用することで近似問題に取り組む。
2段階の正規化フローベース学習インデックスフレームワーク (NFL) が提案され、最初に元の複雑な鍵分布をほぼ一様に変換し、次に変換された鍵を利用する学習インデックスを構築する。
効率的な分布変換のために,数値正規化フロー(数値NF)を提案する。
変換されたキーの特徴に基づいて、ロバストなアフターフロー学習指標(AFLI)を提案する。
パフォーマンスを検証するために、総合的および実世界のワークロードの両方で総合的な評価が行われ、nflは最先端の学習指標と比較して、最も高いスループットと最も低いテールレイテンシを生産していることを示している。
関連論文リスト
- Squeezed Attention: Accelerating Long Context Length LLM Inference [64.11145320159126]
本稿では,入力プロンプトの大部分を固定したLLMアプリケーションを高速化する機構として,Squeezed Attentionを提案する。
K-meansクラスタリングをオフラインで使用して、セマンティックな類似性に基づいて、固定されたコンテキストのキーをグループ化し、各クラスタを単一のセントロイド値で表現します。
そして、固定された文脈から重要なキーのみを用いて正確な注意を計算し、帯域幅と計算コストを削減する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - Correlation and Navigation in the Vocabulary Key Representation Space of Language Models [33.747872934103334]
鍵分布がNTP分布に及ぼす影響について検討した。
NTP分布では、いくつかの上位トークンが典型的に正確であることを示す。
提案手法をオープンエンドおよびチェーンオブ思考(推論)生成に拡張する。
論文 参考訳(メタデータ) (2024-10-03T08:07:55Z) - Semi-Parametric Retrieval via Binary Token Index [71.78109794895065]
Semi-parametric Vocabulary Disentangled Retrieval (SVDR) は、新しい半パラメトリック検索フレームワークである。
既存のニューラル検索手法に似た、高い有効性のための埋め込みベースのインデックスと、従来の用語ベースの検索に似た、迅速かつ費用対効果の高いセットアップを可能にするバイナリトークンインデックスの2つのタイプをサポートする。
埋め込みベースインデックスを使用する場合の高密度検索器DPRよりも3%高いトップ1検索精度と、バイナリトークンインデックスを使用する場合のBM25よりも9%高いトップ1検索精度を実現する。
論文 参考訳(メタデータ) (2024-05-03T08:34:13Z) - Accelerating String-Key Learned Index Structures via Memoization-based Incremental Training [16.93830041971135]
学習されたインデックスは、機械学習モデルを使用して、キーと対応する位置のマッピングをキー値インデックスで学習する。
更新クエリによって導入された変更を組み込むためには、モデルを頻繁に再トレーニングする必要がある。
SIAと呼ばれるアルゴリズムとハードウェアで設計した文字列キー学習インデックスシステムを開発した。
論文 参考訳(メタデータ) (2024-03-18T04:44:00Z) - Compact Neural Graphics Primitives with Learned Hash Probing [100.07267906666293]
学習したプローブを持つハッシュテーブルにはデメリットはなく,その結果,サイズと速度の組合せが好適であることを示す。
推論は、トレーニングが1.2-2.6倍遅い間、同じ品質で未処理のハッシュテーブルよりも高速である。
論文 参考訳(メタデータ) (2023-12-28T18:58:45Z) - Bridging the Domain Gaps in Context Representations for k-Nearest
Neighbor Neural Machine Translation [57.49095610777317]
$k$-Nearestの隣人機械翻訳($k$NN-MT)は、新しい翻訳ドメインに非パラメトリックに適応する能力によって注目を集めている。
本稿では,元のデータストアを再構築することで,$k$NN-MTのデータストア検索を高速化する手法を提案する。
提案手法は,$k$NN-MTのデータストア検索と翻訳品質を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T03:04:42Z) - Graph Positional Encoding via Random Feature Propagation [39.84324765957645]
ノード特徴拡張スキームの2つの主要なファミリーがGNNの強化のために検討されている。
本稿では、上記の2つのアプローチのリンクを引いた、位置符号化方式の新たなファミリーを提案する。
我々は、RFPが複数のノード分類とグラフ分類ベンチマークにおいてスペクトルPEとランダムの特徴の両方を著しく上回っていることを実証的に実証した。
論文 参考訳(メタデータ) (2023-03-06T06:28:20Z) - A Learned Index for Exact Similarity Search in Metric Spaces [25.330353637669386]
LIMSは、学習したインデックスを構築するために、データクラスタリングとピボットベースのデータ変換技術を使用することが提案されている。
機械学習モデルはディスク上の各データレコードの位置を近似するために開発された。
実世界のデータセットと合成データセットに関する大規模な実験は、従来の指標と比較してLIMSの優位性を示している。
論文 参考訳(メタデータ) (2022-04-21T11:24:55Z) - Accurate Grid Keypoint Learning for Efficient Video Prediction [87.71109421608232]
キーポイントベースのビデオ予測手法は、トレーニングやデプロイメントにおいて、かなりの計算資源を消費することができる。
本稿では,長期的効率的な映像予測のための頑健で説明可能な中間キーポイント表現を目的とした,新しいグリッドキーポイント学習フレームワークを設計する。
提案手法は,計算資源の98%以上を節約しつつ,最先端のビデオ予測手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-28T05:04:30Z) - COAX: Correlation-Aware Indexing on Multidimensional Data with Soft
Functional Dependencies [3.670422696827525]
データセットの属性間の相関関係を学習する多次元データのための学習指標であるCOAXを提案する。
実験により,データ中の関連属性を予測することにより,クエリ実行時間を短縮し,インデックスのメモリオーバーヘッドを低減することができることがわかった。
論文 参考訳(メタデータ) (2020-06-29T21:22:15Z) - Progressively Pretrained Dense Corpus Index for Open-Domain Question
Answering [87.32442219333046]
本稿では,段落エンコーダを事前学習するための簡易かつ資源効率の高い手法を提案する。
本手法は,事前学習に7倍の計算資源を使用する既存の高密度検索法より優れている。
論文 参考訳(メタデータ) (2020-04-30T18:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。