論文の概要: Large-Scale Data Parallelization of Product Quantization and Inverted Indexing Using Dask
- arxiv url: http://arxiv.org/abs/2604.21645v1
- Date: Thu, 23 Apr 2026 12:59:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.506723
- Title: Large-Scale Data Parallelization of Product Quantization and Inverted Indexing Using Dask
- Title(参考訳): Daskを用いた製品量子化と逆インデックス化の大規模データ並列化
- Authors: Ashley N. Abraham, Andrew Strelzoff, Haley R. Dozier, Althea C. Henslee, Mark A. Chappell,
- Abstract要約: 大規模Nearest Neighbor(NN)サーチは、類似性検索の分野で広く利用されているが、大規模データの処理に固有の計算制限により、依然として課題が残されている。
この研究は、PQ、Inverted Indexing、Daskを使用してPythonの大規模データを分割し、征服するユニークな方法に焦点を当て、その結果を、精度を損なわずに組み合わせ、中規模データを使用する際に必要となるレベルまで計算要求を減らした。
- 参考スコア(独自算出の注目度): 0.33554367023486936
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large-scale Nearest Neighbor (NN) search, though widely utilized in the similarity search field, remains challenged by the computational limitations inherent in processing large scale data. In an effort to decrease the computational expense needed, Approximate Nearest Neighbor (ANN) search is often used in applications that do not require the exact similarity search, but instead can rely on an approximation. Product Quantization (PQ) is a memory-efficient ANN effective for clustering all sizes of datasets. Clustering large-scale, high dimensional data requires a heavy computational expense, in both memory-cost and execution time. This work focuses on a unique way to divide and conquer the large scale data in Python using PQ, Inverted Indexing and Dask, combining the results without compromising the accuracy and reducing computational requirements to the level required when using medium-scale data.
- Abstract(参考訳): 大規模Nearest Neighbor(NN)サーチは、類似性検索の分野で広く利用されているが、大規模データの処理に固有の計算制限により、依然として課題が残されている。
計算コストを削減すべく、近似Nearest Neighbor (ANN)サーチは、正確な類似性探索を必要としないアプリケーションでしばしば使用されるが、代わりに近似に依存することができる。
製品量子化(PQ)は、データセットのすべてのサイズをクラスタリングするのに有効なメモリ効率のよいANNである。
大規模で高次元データをクラスタリングするには、メモリコストと実行時間の両方において、計算コストが大きすぎる。
この研究は、PQ、Inverted Indexing、Daskを使用してPythonの大規模データを分割し、征服するユニークな方法に焦点を当て、その結果を、精度を損なわずに組み合わせ、中規模データを使用する際に必要となるレベルまで計算要求を減らした。
関連論文リスト
- Cardinality Estimation for High Dimensional Similarity Queries with Adaptive Bucket Probing [9.718824826201201]
本研究では,高次元空間における類似性探索における濃度推定の問題に対処する。
局所性に敏感なハッシュ(LSH)を利用して距離を保ちながらベクトル空間を分割する。
我々は、プログレッシブサンプリングを用いて距離計算の数を減らし、積量子化における非対称距離計算を用いて高次元空間における距離計算を高速化する。
論文 参考訳(メタデータ) (2026-04-06T11:46:47Z) - Value-Based Deep RL Scales Predictably [100.21834069400023]
本研究は, 地域社会が病的行動に不安を抱いているにもかかわらず, 価値に基づく非政治的RL法が予測可能であることを示す。
SAC、BRO、PQLの3つのアルゴリズムを使って、DeepMind Control、OpenAI gym、IsaacGymの3つのアプローチを検証する。
論文 参考訳(メタデータ) (2025-02-06T18:59:47Z) - LoRANN: Low-Rank Matrix Factorization for Approximate Nearest Neighbor Search [4.194768796374315]
本稿では,内積近似が多出力回帰問題であることを示す観測に基づく新しい教師付きスコア計算法を提案する。
実験の結果,提案手法はクエリ待ち時間とメモリ使用量の両方においてPQよりも優れていることがわかった。
また,クラスタリングに基づくANNライブラリであるLoRANNを導入する。
論文 参考訳(メタデータ) (2024-10-24T17:13:39Z) - Learning-Augmented K-Means Clustering Using Dimensional Reduction [1.7243216387069678]
主成分分析(PCA)を用いたデータセットの次元性低減手法を提案する。
PCAは文献でよく確立されており、データモデリング、圧縮、可視化の最も有用なツールの1つになっている。
論文 参考訳(メタデータ) (2024-01-06T12:02:33Z) - Data Aggregation for Hierarchical Clustering [0.3626013617212666]
BETULAは、よく知られたBIRCHデータ集約アルゴリズムの数値的に安定したバージョンである。
これは、クラスタリングの品質に小さな損失しか与えずに、制約のあるリソースを持つシステムでHACを実行可能なものにするために使用できる。
論文 参考訳(メタデータ) (2023-09-05T19:39:43Z) - Scalable Batch Acquisition for Deep Bayesian Active Learning [70.68403899432198]
ディープラーニングでは、各ステップでマークアップする複数の例を選択することが重要です。
BatchBALDのような既存のソリューションでは、多くの例を選択する際に大きな制限がある。
本稿では,より計算効率のよいLarge BatchBALDアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-13T11:45:17Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - Learning Optical Flow from a Few Matches [67.83633948984954]
密な相関体積表現は冗長であり、その中の要素のほんの一部で正確なフロー推定が達成できることを示した。
実験により,高い精度を維持しつつ計算コストとメモリ使用量を大幅に削減できることを示した。
論文 参考訳(メタデータ) (2021-04-05T21:44:00Z) - IRLI: Iterative Re-partitioning for Learning to Index [104.72641345738425]
分散環境でのロードバランスとスケーラビリティを維持しながら、高い精度を得る方法とのトレードオフが必要だ。
クエリ項目関連データから直接バケットを学習することで、アイテムを反復的に分割するIRLIと呼ばれる新しいアプローチを提案する。
我々は,irliが極めて自然な仮定の下で高い確率で正しい項目を検索し,優れた負荷分散を実現することを数学的に示す。
論文 参考訳(メタデータ) (2021-03-17T23:13:25Z) - Berrut Approximated Coded Computing: Straggler Resistance Beyond
Polynomial Computing [34.69732430310801]
本稿では,ストラグラー効果に対処する代替手法として,Berrut Approximated Coded Computing (BACC)を提案する。
BACCは計算複雑性が低い数値的に安定であることが証明されている。
特に、BACCは、サーバのクラスタ上でディープニューラルネットワークをトレーニングするために使用される。
論文 参考訳(メタデータ) (2020-09-17T14:23:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。