論文の概要: Random Cycle Coding: Lossless Compression of Cluster Assignments via Bits-Back Coding
- arxiv url: http://arxiv.org/abs/2412.00369v1
- Date: Sat, 30 Nov 2024 06:24:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:43:36.114515
- Title: Random Cycle Coding: Lossless Compression of Cluster Assignments via Bits-Back Coding
- Title(参考訳): ランダムサイクル符号化:ビットバック符号化によるクラスタ割り当てのロスレス圧縮
- Authors: Daniel Severo, Ashish Khisti, Alireza Makhzani,
- Abstract要約: 任意のデータセットのクラスタ割り当てを符号化する最適な方法を提案する。
我々の手法であるRandom Cycle Coding (RCC)は、データを逐次エンコードし、エンコードされた要素の順序で定義された置換のサイクルとして割り当て情報を送信する。
- 参考スコア(独自算出の注目度): 20.815837902767072
- License:
- Abstract: We present an optimal method for encoding cluster assignments of arbitrary data sets. Our method, Random Cycle Coding (RCC), encodes data sequentially and sends assignment information as cycles of the permutation defined by the order of encoded elements. RCC does not require any training and its worst-case complexity scales quasi-linearly with the size of the largest cluster. We characterize the achievable bit rates as a function of cluster sizes and number of elements, showing RCC consistently outperforms previous methods while requiring less compute and memory resources. Experiments show RCC can save up to 2 bytes per element when applied to vector databases, and removes the need for assigning integer ids to identify vectors, translating to savings of up to 70% in vector database systems for similarity search applications.
- Abstract(参考訳): 任意のデータセットのクラスタ割り当てを符号化する最適な方法を提案する。
我々の手法であるRandom Cycle Coding (RCC)は、データを逐次エンコードし、エンコードされた要素の順序で定義された置換のサイクルとして割り当て情報を送信する。
RCCはトレーニングを一切必要とせず、最悪の場合の複雑性は最大クラスタのサイズとほぼ直線的にスケールする。
我々は、達成可能なビットレートを、クラスタサイズと要素数の関数として特徴付け、RCCが計算やメモリリソースの削減を図りながら、従来手法よりも一貫して優れていたことを示す。
実験では、RCCはベクトルデータベースに適用された場合、要素あたり最大2バイトの保存が可能であり、類似性検索アプリケーションのためのベクトルデータベースシステムで最大70%の保存に変換して、ベクトルを識別するために整数IDを割り当てる必要がなくなる。
関連論文リスト
- Mixed-Precision Embeddings for Large-Scale Recommendation Models [19.93156309493436]
混合精密埋め込み(Mixed-Precision Embeddings、MPE)は、新しい埋め込み圧縮法である。
MPEは予測精度を含まないまま、Criteoデータセット上で約200倍の圧縮を実現している。
論文 参考訳(メタデータ) (2024-09-30T14:04:27Z) - Hierarchical Clustering using Reversible Binary Cellular Automata for High-Dimensional Data [0.0]
セルオートマトン(CA)ベースのクラスタリングでは、2つのオブジェクトが同じサイクルに属している場合、それらは密接に関連しており、同じクラスタの一部であると考えられている。
本稿では,各サイクルの各要素の中央値に基づいて,2つの異なるサイクルのオブジェクト間の関係を同定し,次の段階にグループ化できるようにする。
様々なパフォーマンス指標を持つ標準ベンチマークデータセットに対して検証された場合、アルゴリズムは2次時間複雑性を持つ既存のアルゴリズムと同等である。
論文 参考訳(メタデータ) (2024-08-05T05:48:45Z) - Determining the Optimal Number of Clusters for Time Series Datasets with
Symbolic Pattern Forest [0.0]
最適なクラスタ数(例えば k)を計算するという問題は、そのような方法にとって重要な課題の1つである。
本研究では,時系列データセットの最適なクラスタ数を決定するために,シンボリックパターンフォレストアルゴリズムを拡張した。
UCRアーカイブデータセットに対する我々のアプローチを検証し、これまでの実験結果はベースラインよりも大幅に改善された。
論文 参考訳(メタデータ) (2023-10-01T23:33:37Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - Vector Embeddings by Sequence Similarity and Context for Improved
Compression, Similarity Search, Clustering, Organization, and Manipulation of
cDNA Libraries [3.162643581562756]
本稿では、フラット文字列遺伝子形式(FASTA/FASTQ5)の研究における、遺伝子の組織的数値表現の有用性を示す。
この解は、配列を別の表現に変換することで、生の配列自身と比較して、類似したグループへのクラスタリングを容易にする。
論文 参考訳(メタデータ) (2023-08-08T17:31:17Z) - Efficient Adversarial Contrastive Learning via Robustness-Aware Coreset
Selection [59.77647907277523]
敵対的コントラスト学習(ACL)は、高価なデータアノテーションを必要としないが、敵対的攻撃に耐える堅牢な表現を出力する。
ACLは、すべてのトレーニングデータの逆の変種を生成するのに、膨大な実行時間が必要です。
本稿では,ACLの高速化を目的としたロバストネス対応コアセット選択(RCS)手法を提案する。
論文 参考訳(メタデータ) (2023-02-08T03:20:14Z) - Rapid Person Re-Identification via Sub-space Consistency Regularization [51.76876061721556]
Person Re-Identification (ReID) は、歩行者を分離したカメラで識別する。
実値特徴記述子を用いた既存のReID法は精度が高いが、ユークリッド距離計算が遅いため効率が低い。
本稿では,ReID 処理を 0.25 倍高速化するサブスペース一貫性規則化 (SCR) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-13T02:44:05Z) - Very Compact Clusters with Structural Regularization via Similarity and
Connectivity [3.779514860341336]
本稿では,汎用データセットのためのエンドツーエンドのディープクラスタリングアルゴリズムであるVery Compact Clusters (VCC)を提案する。
提案手法は,最先端のクラスタリング手法よりも優れたクラスタリング性能を実現する。
論文 参考訳(メタデータ) (2021-06-09T23:22:03Z) - Gradient Coding with Dynamic Clustering for Straggler-Tolerant
Distributed Learning [55.052517095437]
勾配降下(GD)は、複数の労働者にデータセットを分散することで学習タスクの並列化に広く用いられている。
分散同期gdにおけるイテレーション完了時間ごとの重要なパフォーマンスボトルネックは$straggling$ workersである。
コード化された分散技術は、最近ストラグラーを緩和し、労働者に冗長な計算を割り当てることでgdイテレーションを高速化するために導入された。
本稿では,従来のトラグリング動作に依存する可能性のあるコードの中から,冗長なデータを労働者に割り当てて選択する動的GC方式を提案する。
論文 参考訳(メタデータ) (2021-03-01T18:51:29Z) - Gradient Coding with Dynamic Clustering for Straggler Mitigation [57.9123881133818]
GC-DCは、前回のイテレーションにおけるストラグラーの振る舞いに基づいて、各クラスタ内のストラグラーワーカ数を規制する。
本稿では,GC-DCが従来のGC方式に比べて通信負荷を増大させることなく,各イテレーションの平均完了時間(各イテレーション)を大幅に改善できることを数値的に示す。
論文 参考訳(メタデータ) (2020-11-03T18:52:15Z) - Optimal Clustering from Noisy Binary Feedback [75.17453757892152]
本稿では,二元的ユーザフィードバックから一組のアイテムをクラスタリングする問題について検討する。
最小クラスタ回復誤差率のアルゴリズムを考案する。
適応選択のために,情報理論的誤差下界の導出にインスパイアされたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2019-10-14T09:18:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。