論文の概要: Implementing Streaming algorithm and k-means clusters to RAG
- arxiv url: http://arxiv.org/abs/2407.21300v1
- Date: Wed, 31 Jul 2024 03:00:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 18:51:29.076878
- Title: Implementing Streaming algorithm and k-means clusters to RAG
- Title(参考訳): ストリームアルゴリズムとk平均クラスタをRAGに実装する
- Authors: Haoyu Kang, Yuzhou Zhu, Yukun Zhong, Ke Wang,
- Abstract要約: Retrieval-augmented Generation (RAG) は,大規模モデルを支援する情報検索において大きな成功を収めている。
RAGは、巨大なストリーミングデータに直面すると、確立したインデックスデータベースを更新できない。
本稿では,ストリーミングアルゴリズムとk-meansクラスタとRAGを組み合わせた新しい手法を提案する。
- 参考スコア(独自算出の注目度): 2.5251537417183028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-augmented generation (RAG) has achieved great success in information retrieval to assist large models because it builds an external knowledge database. However, it also has many problems: it consumes a lot of memory because of the huge database. When faced with massive streaming data, it is unable to update the established index database in time. To save the memory of building the database and maintain accuracy simultaneously, we proposed a new approach combining a streaming algorithm and k-means cluster with RAG. Our approach applies a streaming algorithm to update the index and reduce memory consumption. Then use the k-means algorithm to cluster documents with high similarities together, the query time will be shortened by doing this. We conducted comparative experiments on four methods, and the results show that RAG with streaming algorithm and k-means cluster performs well in accuracy and memory. For massive streaming data, we find that our method behaves better than traditional RAG
- Abstract(参考訳): 検索拡張世代(RAG)は,外部知識データベースを構築するため,大規模モデルを支援する情報検索において大きな成功を収めている。
しかし、巨大なデータベースのために大量のメモリを消費するなど、多くの問題がある。
巨大なストリーミングデータに直面した場合には、確立したインデックスデータベースを時間内に更新することはできない。
データベース構築のメモリを節約し、精度を同時に維持するために、ストリーミングアルゴリズムとk-meansクラスタをRAGと組み合わせた新しいアプローチを提案する。
我々の手法は、インデックスを更新し、メモリ消費を減らすためにストリーミングアルゴリズムを適用している。
次に、k-meansアルゴリズムを用いて、高い類似性を持つドキュメントをクラスタリングし、クエリ時間を短縮する。
提案手法の比較実験により,ストリーミングアルゴリズムとk平均クラスタを用いたRAGが精度とメモリにおいて良好に動作することを示した。
大規模ストリーミングデータの場合、従来のRAGよりも動作がよいことが分かりました。
関連論文リスト
- Data Aggregation for Hierarchical Clustering [0.3626013617212666]
BETULAは、よく知られたBIRCHデータ集約アルゴリズムの数値的に安定したバージョンである。
これは、クラスタリングの品質に小さな損失しか与えずに、制約のあるリソースを持つシステムでHACを実行可能なものにするために使用できる。
論文 参考訳(メタデータ) (2023-09-05T19:39:43Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - GBMST: An Efficient Minimum Spanning Tree Clustering Based on
Granular-Ball Computing [78.92205914422925]
多粒度グラニュラバルと最小スパンニングツリー(MST)を組み合わせたクラスタリングアルゴリズムを提案する。
粒度が粗い粒状ボールを構築し,さらに粒状ボールとMSTを用いて「大規模優先度」に基づくクラスタリング手法を実装した。
いくつかのデータセットの実験結果は、アルゴリズムの威力を示している。
論文 参考訳(メタデータ) (2023-03-02T09:04:35Z) - Genie: A new, fast, and outlier-resistant hierarchical clustering
algorithm [3.7491936479803054]
我々はGenieと呼ばれる新しい階層的クラスタリングリンク基準を提案する。
我々のアルゴリズムは、2つのクラスタを、選択された経済不平等尺度が与えられたしきい値を超えないようにリンクする。
このアルゴリズムのリファレンス実装は、Rのためのオープンソースの'genie'パッケージに含まれている。
論文 参考訳(メタデータ) (2022-09-13T06:42:53Z) - Injecting Domain Adaptation with Learning-to-hash for Effective and
Efficient Zero-shot Dense Retrieval [49.98615945702959]
我々は,TAS-B高密度検索器の下流ゼロショット検索精度を向上させるためのLTHおよびベクトル圧縮技術を評価する。
以上の結果から, 従来の研究とは異なり, LTH法はゼロショットTAS-B高密度レトリバーを平均14%のnDCG@10で過小評価できることがわかった。
論文 参考訳(メタデータ) (2022-05-23T17:53:44Z) - Efficient Dynamic Clustering: Capturing Patterns fromHistorical Cluster
Evolution [8.220295070012977]
クラスタリングは、異常検出、データベースシャーディング、レコードリンクなど、多くのタスクにおいて重要である。
いくつかのクラスタリングメソッドは、データベース内のすべてのオブジェクトをスクラッチからクラスタ化するときに高いオーバーヘッドを発生させるバッチアルゴリズムとして扱われる。
このようなシナリオでは、バッチアルゴリズムの実行は不可能である。
論文 参考訳(メタデータ) (2022-03-02T01:10:43Z) - Improved Multi-objective Data Stream Clustering with Time and Memory
Optimization [0.0]
本稿では,新しいデータストリームクラスタリング手法(IMOC-Stream)を提案する。
2つの異なる目的関数を使用して、データの異なる側面をキャプチャする。
実験により, 任意の形状, コンパクト, 分離されたクラスタにデータストリームを分割できることを示す。
論文 参考訳(メタデータ) (2022-01-13T17:05:56Z) - Meta Clustering Learning for Large-scale Unsupervised Person
Re-identification [124.54749810371986]
メタクラスタリング学習(MCL)と呼ばれる「大規模タスクのための小さなデータ」パラダイムを提案する。
MCLは、第1フェーズのトレーニングのためにコンピューティングを節約するためにクラスタリングを介して、未ラベルデータのサブセットを擬似ラベル付けするのみである。
提案手法は計算コストを大幅に削減すると同時に,従来よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2021-11-19T04:10:18Z) - SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。
KRRのストリーミング版であるStreaMRAKを提案する。
本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文 参考訳(メタデータ) (2021-08-23T21:03:09Z) - Fast Distributed Bandits for Online Recommendation Systems [22.447455071649852]
コンテキスト帯域幅アルゴリズムは、コンテンツの人気が急速に変化するレコメンデーションシステムで一般的に使用される。
近年,ユーザ間のクラスタリングやソーシャル構造を学習するリコメンデーションアルゴリズムは,高いレコメンデーション精度を示した。
最先端の分散バンディットアルゴリズム(DCCB)は、分散ワーカー間で情報を共有するためにピアツーピアのネットワークに依存している。
本稿では,DistCLUBと呼ばれる分散帯域幅に基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-16T01:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。