論文の概要: Efficient Binary Embedding of Categorical Data using BinSketch
- arxiv url: http://arxiv.org/abs/2111.07163v1
- Date: Sat, 13 Nov 2021 18:18:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-16 17:56:20.950073
- Title: Efficient Binary Embedding of Categorical Data using BinSketch
- Title(参考訳): BinSketch を用いたカテゴリーデータの効率的なバイナリ埋め込み
- Authors: Bhisham Dev Verma and Rameshwar Pratap and Debajyoti Bera
- Abstract要約: 本稿では,分類データセットに対する次元削減アルゴリズム,いわゆるスケッチを提案する。
キャビンは高次元の圏ベクトルから低次元のバイナリスケッチを構成する。
チャムは、2つの元のベクトルの間のハミング距離の近似をスケッチからのみ計算する。
- 参考スコア(独自算出の注目度): 0.9560980936110233
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this work, we present a dimensionality reduction algorithm, aka.
sketching, for categorical datasets. Our proposed sketching algorithm Cabin
constructs low-dimensional binary sketches from high-dimensional categorical
vectors, and our distance estimation algorithm Cham computes a close
approximation of the Hamming distance between any two original vectors only
from their sketches. The minimum dimension of the sketches required by Cham to
ensure a good estimation theoretically depends only on the sparsity of the data
points - making it useful for many real-life scenarios involving sparse
datasets. We present a rigorous theoretical analysis of our approach and
supplement it with extensive experiments on several high-dimensional real-world
data sets, including one with over a million dimensions. We show that the Cabin
and Cham duo is a significantly fast and accurate approach for tasks such as
RMSE, all-pairs similarity, and clustering when compared to working with the
full dataset and other dimensionality reduction techniques.
- Abstract(参考訳): 本研究では,次元還元アルゴリズム,akaについて述べる。
分類的データセットのスケッチです
提案したスケッチアルゴリズムであるCabinは高次元のカテゴリベクトルから低次元のバイナリスケッチを構築し,距離推定アルゴリズムであるChamはスケッチからのみ2つの元のベクトル間のハミング距離の近似を計算する。
適切な見積もりを理論的に保証するためにchamが要求するスケッチの最小次元は、データポイントのスパース性のみに依存するため、スパースデータセットを含む多くの現実シナリオで有用である。
我々は,本手法の厳密な理論的解析を行い,100万以上の次元を含む複数の高次元実世界のデータセットに関する広範な実験を行った。
cabinとcham duoは、rmse、all-pairsの類似性、クラスタリングといったタスクに対して、完全なデータセットや他の次元の削減技術と比べ、非常に高速で正確なアプローチであることを示している。
関連論文リスト
- Distributional Reduction: Unifying Dimensionality Reduction and Clustering with Gromov-Wasserstein [56.62376364594194]
教師なし学習は、潜在的に大きな高次元データセットの基盤構造を捉えることを目的としている。
本研究では、最適輸送のレンズの下でこれらのアプローチを再検討し、Gromov-Wasserstein問題と関係を示す。
これにより、分散還元と呼ばれる新しい一般的なフレームワークが公開され、DRとクラスタリングを特別なケースとして回復し、単一の最適化問題内でそれらに共同で対処することができる。
論文 参考訳(メタデータ) (2024-02-03T19:00:19Z) - Linearized Wasserstein dimensionality reduction with approximation
guarantees [65.16758672591365]
LOT Wassmap は、ワーッサーシュタイン空間の低次元構造を明らかにするための計算可能なアルゴリズムである。
我々は,LOT Wassmapが正しい埋め込みを実現し,サンプルサイズの増加とともに品質が向上することを示す。
また、LOT Wassmapがペア距離計算に依存するアルゴリズムと比較して計算コストを大幅に削減することを示す。
論文 参考訳(メタデータ) (2023-02-14T22:12:16Z) - Dimensionality Reduction for Categorical Data [0.9560980936110233]
FSketchを用いて、スパース分類データのスケッチを作成するとともに、ペアのハミング距離を推定する推定器を提案する。
FSketchは大幅に高速であり、そのスケッチを用いて得られる精度は、RMSE、クラスタリング、類似検索の標準的な教師なしタスクの上位にある。
論文 参考訳(メタデータ) (2021-12-01T09:20:28Z) - Index $t$-SNE: Tracking Dynamics of High-Dimensional Datasets with
Coherent Embeddings [1.7188280334580195]
本稿では,クラスタの位置を保存した新しいものを作成するために,埋め込みを再利用する手法を提案する。
提案アルゴリズムは,新しい項目を埋め込むために$t$-SNEと同じ複雑さを持つ。
論文 参考訳(メタデータ) (2021-09-22T06:45:37Z) - A Local Similarity-Preserving Framework for Nonlinear Dimensionality
Reduction with Neural Networks [56.068488417457935]
本稿では,Vec2vecという新しい局所非線形手法を提案する。
ニューラルネットワークを訓練するために、マトリックスの近傍類似度グラフを構築し、データポイントのコンテキストを定義します。
8つの実データセットにおけるデータ分類とクラスタリングの実験により、Vec2vecは統計仮説テストにおける古典的な次元削減法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-03-10T23:10:47Z) - Sketch and Scale: Geo-distributed tSNE and UMAP [75.44887265789056]
地理的に分散したデータセット上で機械学習分析を実行することは、急速に発生する問題である。
私たちはSketch and Scale(SnS)という新しいフレームワークを紹介します。
これはCount Sketchデータ構造を利用して、エッジノード上のデータを圧縮し、マスターノード上の縮小サイズスケッチを集約し、サマリ上でバニラtSNEまたはUMAPを実行する。
我々は、この技術が完全に並列で、線形に時間にスケールし、メモリに対数的に分散し、通信し、世界中の複数のデータセンターにまたがる数百万、数十億のデータポイントでデータセットを解析できることを示す。
論文 参考訳(メタデータ) (2020-11-11T22:32:21Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z) - Dimensionality Reduction via Diffusion Map Improved with Supervised
Linear Projection [1.7513645771137178]
本稿では、データサンプルが1つの基礎となる滑らかな多様体上に存在すると仮定する。
ペアワイズローカルカーネル距離を用いてクラス内およびクラス間類似性を定義する。
クラス内類似度を最大化し、クラス間類似度を同時に最小化する線形射影を求める。
論文 参考訳(メタデータ) (2020-08-08T04:26:07Z) - Two-Dimensional Semi-Nonnegative Matrix Factorization for Clustering [50.43424130281065]
TS-NMFと呼ばれる2次元(2次元)データに対する新しい半負行列分解法を提案する。
前処理ステップで2次元データをベクトルに変換することで、データの空間情報に深刻なダメージを与える既存の手法の欠点を克服する。
論文 参考訳(メタデータ) (2020-05-19T05:54:14Z) - Scalable Distributed Approximation of Internal Measures for Clustering
Evaluation [5.144809478361603]
クラスタリング評価のための内部測度はシルエット係数であり、計算には2つの距離計算が必要である。
本稿では,任意の距離に基づいてクラスタリングの評価を行うための厳密な近似を計算した最初のスケーラブルアルゴリズムを提案する。
また,このアルゴリズムは凝集や分離などのクラスタリング品質の他の内部指標の厳密な近似に適応可能であることも証明した。
論文 参考訳(メタデータ) (2020-03-03T10:28:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。