論文の概要: LSHBloom: Memory-efficient, Extreme-scale Document Deduplication
- arxiv url: http://arxiv.org/abs/2411.04257v1
- Date: Wed, 06 Nov 2024 21:00:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:38:09.014309
- Title: LSHBloom: Memory-efficient, Extreme-scale Document Deduplication
- Title(参考訳): LSHBloom: メモリ効率が高く、極端に大規模なドキュメント重複
- Authors: Arham Khan, Robert Underwood, Carlo Siebenschuh, Yadu Babuji, Aswathy Ajith, Kyle Hippe, Ozan Gokdemir, Alexander Brace, Kyle Chard, Ian Foster,
- Abstract要約: 我々は、高価なLSHIndexを軽量なBloomフィルタに置き換える、MinhashLSHの拡張であるLSHBloomを提案する。
LSHBloomは従来のMinHashLSHよりも250%のスピードアップと54$timesのスペースアドバンテージを実現しています。
- 参考スコア(独自算出の注目度): 36.744924349963206
- License:
- Abstract: Deduplication is a major focus for assembling and curating training datasets for large language models (LLM) -- detecting and eliminating additional instances of the same content -- in large collections of technical documents. Unrestrained, duplicates in the training dataset increase training costs and lead to undesirable properties such as memorization in trained models or cheating on evaluation. Contemporary approaches to document-level deduplication are often extremely expensive in both runtime and memory. We propose LSHBloom, an extension to MinhashLSH, which replaces the expensive LSHIndex with lightweight Bloom filters. LSHBloom demonstrates the same deduplication performance as MinhashLSH with only a marginal increase in false positives (as low as 1e-5 in our experiments); demonstrates competitive runtime (270\% faster than MinhashLSH on peS2o); and, crucially, uses just 0.6\% of the disk space required by MinhashLSH to deduplicate peS2o. We demonstrate that this space advantage scales with increased dataset size -- at the extreme scale of several billion documents, LSHBloom promises a 250\% speedup and a 54$\times$ space advantage over traditional MinHashLSH scaling deduplication of text datasets to many billions of documents.
- Abstract(参考訳): 重複は、大規模言語モデル(LLM)のためのトレーニングデータセットの組み立てとキュレーション -- 同じコンテンツの追加インスタンスの検出と削除 -- を、大規模な技術ドキュメントのコレクションで実施する上で、大きな焦点である。
トレーニングデータセットの非制限の重複は、トレーニングコストを増大させ、トレーニングモデルの記憶や評価上の不正といった望ましくない特性をもたらす。
文書レベルの重複に対する現代のアプローチは、実行時とメモリの両方で非常に高価であることが多い。
我々は、高価なLSHIndexを軽量なBloomフィルタに置き換える、MinhashLSHの拡張であるLSHBloomを提案する。
LSHBloomはMinhashLSHと同じ重複性能を示し(実験では1e-5以下)、競合ランタイム(PeS2oではMinhashLSHより270\%速い)を示し、重要なことに、PeS2oを分解するためにMinhashLSHが必要とするディスクスペースの0.6\%しか使用していない。
LSHBloomは、数十億のドキュメントの極端なスケールで、従来のMinHashLSHよりも250\%のスピードアップと54$\times$スペースのアドバンテージを約束します。
関連論文リスト
- Mosaic Memory: Fuzzy Duplication in Copyright Traps for Large Language Models [7.405082919188384]
著作権トラップはオリジナルコンテンツに注入されることが提案されており、新たにリリースされたLCMのコンテンツ検出性が改善されている。
Trapsはユニークなテキストシーケンスの正確な重複に依存しており、一般的にデプロイされるデータ重複のテクニックに弱いままである。
本稿では,複製間のわずかな変更を特徴とするファジィ著作権トラップの生成を提案する。
論文 参考訳(メタデータ) (2024-05-24T13:05:05Z) - BTR: Binary Token Representations for Efficient Retrieval Augmented Language Models [77.0501668780182]
Retrieval augmentationは、大規模言語モデルにおける多くの重要な問題に対処する。
検索拡張言語モデル(LM)の実行は遅く、大量の検索されたテキストを処理するため、スケールが困難である。
1ビットベクトルを用いて各トークンを前処理するバイナリトークン表現(BTR)を導入する。
論文 参考訳(メタデータ) (2023-10-02T16:48:47Z) - Fast Locality Sensitive Hashing with Theoretical Guarantee [5.635783105833339]
局所性に敏感なハッシュ(LSH)は、多くの機械学習タスクで広く使われている効果的なランダム化手法である。
本稿では,l2 ノルムの下で,FastLSH という名前の簡易かつ効率的な LSH スキームを設計する。
ランダムサンプリングとランダムプロジェクションを組み合わせることで、FastLSHは時間複雑性を O(n) から O(m) (mn) に還元する。
実験結果から,FastLSHは回答の品質,空間占有,クエリ効率の面で,最先端技術と同等であることがわかった。
論文 参考訳(メタデータ) (2023-09-27T08:21:38Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text
Retrieval [55.097573036580066]
実験結果から,LaPraDoRは教師付き高密度検索モデルと比較して最先端の性能が得られることがわかった。
再ランクと比較すると,1ミリ秒 (22.5倍高速) でレキシコン強化手法を動作させることができるが,性能は良好である。
論文 参考訳(メタデータ) (2022-03-11T18:53:12Z) - Semantically Constrained Memory Allocation (SCMA) for Embedding in
Efficient Recommendation Systems [27.419109620575313]
ディープラーニングモデルの重要な課題は、数百万のカテゴリクラスやトークンを扱うことだ。
本稿では,記憶の共有を意味情報の重なりに比例して共有する,新しいメモリ共有埋め込み方式を提案する。
性能を維持しながらメモリフットプリントの大幅な削減を示す。
論文 参考訳(メタデータ) (2021-02-24T19:55:49Z) - Making Online Sketching Hashing Even Faster [63.16042585506435]
本稿では,FROSH(FasteR Online Sketching Hashing)アルゴリズムを提案する。
提案したFROSHがより少ない時間を消費し、同等のスケッチ精度を実現することを保証するための理論的正当性を提供する。
また、FROSHの分散実装であるDFROSHを拡張して、FROSHのトレーニング時間コストをさらに削減する。
論文 参考訳(メタデータ) (2020-10-10T08:50:53Z) - Deep Hashing with Hash-Consistent Large Margin Proxy Embeddings [65.36757931982469]
画像ハッシュコードは、分類または検索のために訓練された畳み込みニューラルネットワーク(CNN)の埋め込みをバイナライズすることによって生成される。
この曖昧さを解消するために、固定されたプロキシ(CNN分類層の重み)の使用が提案されている。
得られたHCLMプロキシはハッシュ単位の飽和を促進することが示され、小さな二項化誤差が保証される。
論文 参考訳(メタデータ) (2020-07-27T23:47:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。