論文の概要: Xling: A Learned Filter Framework for Accelerating High-Dimensional
Approximate Similarity Join
- arxiv url: http://arxiv.org/abs/2402.13397v1
- Date: Tue, 20 Feb 2024 21:57:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 18:12:10.441903
- Title: Xling: A Learned Filter Framework for Accelerating High-Dimensional
Approximate Similarity Join
- Title(参考訳): xling: 高次元近似類似性結合を加速する学習型フィルタフレームワーク
- Authors: Yifan Wang, Vyom Pathak, Daisy Zhe Wang
- Abstract要約: 類似性結合は、与えられた距離閾値内のすべての閉点を見つける。
Xlingは、既存の回帰モデルで学習ベースのメトリックスペースフィルタを構築するための一般的なフレームワークである。
XJoinは、Xlingをベースにした最初のフィルタベースの類似結合メソッドの1つである。
- 参考スコア(独自算出の注目度): 10.531750056106096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Similarity join finds all pairs of close points within a given distance
threshold. Many similarity join methods have been proposed, but they are
usually not efficient on high-dimensional space due to the curse of
dimensionality and data-unawareness. We investigate the possibility of using
metric space Bloom filter (MSBF), a family of data structures checking if a
query point has neighbors in a multi-dimensional space, to speed up similarity
join. However, there are several challenges when applying MSBF to similarity
join, including excessive information loss, data-unawareness and hard
constraint on the distance metric. In this paper, we propose Xling, a generic
framework to build a learning-based metric space filter with any existing
regression model, aiming at accurately predicting whether a query point has
enough number of neighbors. The framework provides a suite of optimization
strategies to further improve the prediction quality based on the learning
model, which has demonstrated significantly higher prediction quality than
existing MSBF. We also propose XJoin, one of the first filter-based similarity
join methods, based on Xling. By predicting and skipping those queries without
enough neighbors, XJoin can effectively reduce unnecessary neighbor searching
and therefore it achieves a remarkable acceleration. Benefiting from the
generalization capability of deep learning models, XJoin can be easily
transferred onto new dataset (in similar distribution) without re-training.
Furthermore, Xling is not limited to being applied in XJoin, instead, it acts
as a flexible plugin that can be inserted to any loop-based similarity join
methods for a speedup.
- Abstract(参考訳): 類似性結合は、与えられた距離閾値内のすべての閉点を見つける。
多くの類似結合法が提案されているが、次元性やデータ無意識の呪いのため、高次元空間では効率が良くないことが多い。
問合せ点が多次元空間に隣接しているかどうかをチェックするデータ構造群である距離空間ブルームフィルタ(MSBF)を用いて類似性結合を高速化する可能性を検討する。
しかし,MSBFを類似度結合に適用する場合,過度な情報損失,データ無意識,距離距離距離の制約など,いくつかの課題がある。
本稿では,既存の回帰モデルを用いて学習ベースの距離空間フィルタを構築するための汎用フレームワークであるxlingを提案する。
このフレームワークは、学習モデルに基づいて予測品質をさらに改善するための一連の最適化戦略を提供しており、既存のMSBFよりもかなり高い予測品質を示している。
また, xling に基づいた最初のフィルタベースの類似性結合手法である xjoin を提案する。
XJoinは、十分な隣人なしでクエリを予測およびスキップすることで、不要な隣人探索を効果的に削減できるため、顕著な加速を実現している。
ディープラーニングモデルの一般化能力から恩恵を受けることで、XJoinは再トレーニングなしで(同様の分布で)新しいデータセットに簡単に移行できる。
さらに、xlingはxjoinに適用されることに限定されず、スピードアップのためにループベースの類似性結合メソッドに挿入可能な柔軟なプラグインとして機能する。
関連論文リスト
- A Method of Moments Embedding Constraint and its Application to Semi-Supervised Learning [2.8266810371534152]
線形+ソフトマックス最終層を持つ非ネイティブなディープラーニングモデルには問題がある。
ラテント空間は条件付き確率$p(Y|X)$だけを予測するが、完全関節分布$p(Y,X)$は予測しない。
このことは、幻覚、不明瞭なバイアス、大規模なデータセットへの依存など、多くの問題に影響を及ぼす過信モデルをさらに悪化させる。
論文 参考訳(メタデータ) (2024-04-27T18:41:32Z) - Group Testing for Accurate and Efficient Range-Based Near Neighbor Search for Plagiarism Detection [2.3814052021083354]
本研究は, 近接探索問題に対する適応型群検定フレームワークを提案する。
本研究では,データベース内の各項目を問合せ点の隣人あるいは非隣人として,余剰距離閾値に基づいて効率よくマークする。
本研究では,ソフトマックスに基づく特徴量を用いて,完全探索よりも10倍以上の高速化を実現し,精度を損なわないことを示す。
論文 参考訳(メタデータ) (2023-11-05T06:12:03Z) - Learnable Pillar-based Re-ranking for Image-Text Retrieval [119.9979224297237]
画像テキスト検索は、モダリティギャップを埋め、意味的類似性に基づいてモダリティコンテンツを検索することを目的としている。
一般的なポストプロセッシング手法であるリグレードは, 単一モダリティ検索タスクにおいて, 隣り合う関係を捕捉する優位性を明らかにしている。
本稿では,画像テキスト検索のための新しい学習可能な柱型リグレードパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-25T04:33:27Z) - DeepJoin: Joinable Table Discovery with Pre-trained Language Models [10.639106014582756]
既存のアプローチは、統一されたビューを作成するためのテーブルを組み合わせる最も一般的な方法である、等結合をターゲットにしている。
Deepjoinは、正確で効率的な結合可能なテーブルディスカバリのためのディープラーニングモデルである。
Deepjoinは、専門家のラベルで評価した場合、セマンティック結合の正確なソリューションよりもはるかに正確です。
論文 参考訳(メタデータ) (2022-12-15T02:40:57Z) - Multi-scale Feature Aggregation for Crowd Counting [84.45773306711747]
マルチスケール特徴集約ネットワーク(MSFANet)を提案する。
MSFANetは、ショートアグリゲーション(ShortAgg)とスキップアグリゲーション(SkipAgg)の2つの機能アグリゲーションモジュールで構成されている。
論文 参考訳(メタデータ) (2022-08-10T10:23:12Z) - Finding Geometric Models by Clustering in the Consensus Space [61.65661010039768]
本稿では,未知数の幾何学的モデル,例えばホモグラフィーを求めるアルゴリズムを提案する。
複数の幾何モデルを用いることで精度が向上するアプリケーションをいくつか提示する。
これには、複数の一般化されたホモグラフからのポーズ推定、高速移動物体の軌道推定が含まれる。
論文 参考訳(メタデータ) (2021-03-25T14:35:07Z) - Rethinking Learnable Tree Filter for Generic Feature Transform [71.77463476808585]
Learnable Tree Filterはセマンティックセグメンテーションのためのモデル構造保存関係に対する顕著なアプローチを示す。
幾何学的制約を緩和するために,マルコフ確率場として再構成して解析を行い,学習可能な不定項を導入する。
セマンティックセグメンテーションでは、ベルとホイッスルなしでCityscapesベンチマークでトップパフォーマンス(82.1% mIoU)を達成しています。
論文 参考訳(メタデータ) (2020-12-07T07:16:47Z) - A Practical Index Structure Supporting Fr\'echet Proximity Queries Among
Trajectories [1.9335262420787858]
我々は、計算コストの高いメトリクスの下で、レンジと近隣クエリに$k$のスケーラブルなアプローチを提案する。
計量指標のクラスタリングに基づいて,軌跡数に線形な木構造を求める。
本研究では,多種多様な合成および実世界のデータセットに関する広範な実験により,本手法の有効性と有効性について分析する。
論文 参考訳(メタデータ) (2020-05-28T04:12:43Z) - FedPD: A Federated Learning Framework with Optimal Rates and Adaptivity
to Non-IID Data [59.50904660420082]
フェデレートラーニング(FL)は、分散データから学ぶための一般的なパラダイムになっています。
クラウドに移行することなく、さまざまなデバイスのデータを効果的に活用するために、Federated Averaging(FedAvg)などのアルゴリズムでは、"Computation then aggregate"(CTA)モデルを採用している。
論文 参考訳(メタデータ) (2020-05-22T23:07:42Z) - LSF-Join: Locality Sensitive Filtering for Distributed All-Pairs Set
Similarity Under Skew [58.21885402826496]
全ペアセットの類似性は、大規模で高次元のデータセットであっても広く使われているデータマイニングタスクである。
我々は,全対集合の類似性を近似するために,新しい分散アルゴリズム LSF-Join を提案する。
LSF-Joinは、小さな類似度閾値やスキュー入力セットであっても、最も近いペアを効率的に見つける。
論文 参考訳(メタデータ) (2020-03-06T00:06:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。