論文の概要: Dimensionality Reduction for Categorical Data
- arxiv url: http://arxiv.org/abs/2112.00362v1
- Date: Wed, 1 Dec 2021 09:20:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 15:31:32.353822
- Title: Dimensionality Reduction for Categorical Data
- Title(参考訳): カテゴリーデータの次元性低減
- Authors: Debajyoti Bera, Rameshwar Pratap, Bhisham Dev Verma
- Abstract要約: FSketchを用いて、スパース分類データのスケッチを作成するとともに、ペアのハミング距離を推定する推定器を提案する。
FSketchは大幅に高速であり、そのスケッチを用いて得られる精度は、RMSE、クラスタリング、類似検索の標準的な教師なしタスクの上位にある。
- 参考スコア(独自算出の注目度): 0.9560980936110233
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Categorical attributes are those that can take a discrete set of values,
e.g., colours. This work is about compressing vectors over categorical
attributes to low-dimension discrete vectors. The current hash-based methods
compressing vectors over categorical attributes to low-dimension discrete
vectors do not provide any guarantee on the Hamming distances between the
compressed representations. Here we present FSketch to create sketches for
sparse categorical data and an estimator to estimate the pairwise Hamming
distances among the uncompressed data only from their sketches. We claim that
these sketches can be used in the usual data mining tasks in place of the
original data without compromising the quality of the task. For that, we ensure
that the sketches also are categorical, sparse, and the Hamming distance
estimates are reasonably precise. Both the sketch construction and the Hamming
distance estimation algorithms require just a single-pass; furthermore, changes
to a data point can be incorporated into its sketch in an efficient manner. The
compressibility depends upon how sparse the data is and is independent of the
original dimension -- making our algorithm attractive for many real-life
scenarios. Our claims are backed by rigorous theoretical analysis of the
properties of FSketch and supplemented by extensive comparative evaluations
with related algorithms on some real-world datasets. We show that FSketch is
significantly faster, and the accuracy obtained by using its sketches are among
the top for the standard unsupervised tasks of RMSE, clustering and similarity
search.
- Abstract(参考訳): カテゴリ属性は、例えば色など、個々の値の集合を取ることができる属性である。
この研究は、分類属性上のベクトルを低次元離散ベクトルに圧縮することである。
現在のハッシュベースの方法では、分類的属性よりも低次元離散ベクトルにベクトルを圧縮しても、圧縮された表現間のハミング距離の保証は得られない。
ここでは, fsketch を用いて, スパース分類データのためのスケッチを作成し, そのスケッチからのみ非圧縮データ間の対方向のハミング距離を推定する推定器を提案する。
これらのスケッチは、元のデータの代わりに通常のデータマイニングタスクで、タスクの品質を損なうことなく使用できると主張している。
そのため、スケッチもカテゴリー的であり、スパースであり、ハミング距離の推定が合理的に正確であることを保証する。
スケッチ構成とハミング距離推定アルゴリズムの両方が単一のパスを必要とするだけでなく、データポイントへの変更を効率的にスケッチに組み込むことができる。
圧縮性は、データがいかにスパースで、元の次元に依存しているかによって異なります。
我々の主張はFSketchの特性の厳密な理論的分析によって裏付けられ、いくつかの実世界のデータセットにおける関連するアルゴリズムとの広範な比較評価によって補完される。
FSketch はより高速であり,そのスケッチを用いて得られる精度は,RMSE やクラスタリング,類似性検索といった標準的な教師なしタスクの上位に位置する。
関連論文リスト
- Noncommutative Model Selection for Data Clustering and Dimension Reduction Using Relative von Neumann Entropy [0.0]
教師なし分類と次元削減のためのデータ駆動型アルゴリズムのペアを提案する。
我々の実験では、クラスタリングアルゴリズムは、非自明な幾何学とトポロジを持つデータセット上の$k$-meansクラスタリングよりも優れています。
論文 参考訳(メタデータ) (2024-11-29T18:04:11Z) - Linearized Wasserstein dimensionality reduction with approximation
guarantees [65.16758672591365]
LOT Wassmap は、ワーッサーシュタイン空間の低次元構造を明らかにするための計算可能なアルゴリズムである。
我々は,LOT Wassmapが正しい埋め込みを実現し,サンプルサイズの増加とともに品質が向上することを示す。
また、LOT Wassmapがペア距離計算に依存するアルゴリズムと比較して計算コストを大幅に削減することを示す。
論文 参考訳(メタデータ) (2023-02-14T22:12:16Z) - Efficient Binary Embedding of Categorical Data using BinSketch [0.9560980936110233]
本稿では,分類データセットに対する次元削減アルゴリズム,いわゆるスケッチを提案する。
キャビンは高次元の圏ベクトルから低次元のバイナリスケッチを構成する。
チャムは、2つの元のベクトルの間のハミング距離の近似をスケッチからのみ計算する。
論文 参考訳(メタデータ) (2021-11-13T18:18:35Z) - Meta Learning Low Rank Covariance Factors for Energy-Based Deterministic
Uncertainty [58.144520501201995]
ニューラルネットワーク層のBi-Lipschitz正規化は、各レイヤの特徴空間におけるデータインスタンス間の相対距離を保存する。
注意セットエンコーダを用いて,タスク固有の共分散行列を効率的に構築するために,対角的,対角的,低ランクな要素のメタ学習を提案する。
また,最終的な予測分布を達成するために,スケールしたエネルギーを利用する推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T22:04:19Z) - Estimating leverage scores via rank revealing methods and randomization [50.591267188664666]
任意のランクの正方形密度あるいはスパース行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。
提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。
論文 参考訳(メタデータ) (2021-05-23T19:21:55Z) - Asymmetric compressive learning guarantees with applications to
quantized sketches [15.814495790111323]
大規模データセットから音声イベント分類を学習するためのフレームワークを提案する。
私たちは、このマップが各フェーズごとに異なることが許されるリラクゼーションを研究します。
次に、このフレームワークを量子化されたスケッチの設定にインスタンス化し、LPDが実際にバイナリスケッチのコントリビューションを保持することを証明します。
論文 参考訳(メタデータ) (2021-04-20T15:37:59Z) - Learning Optical Flow from a Few Matches [67.83633948984954]
密な相関体積表現は冗長であり、その中の要素のほんの一部で正確なフロー推定が達成できることを示した。
実験により,高い精度を維持しつつ計算コストとメモリ使用量を大幅に削減できることを示した。
論文 参考訳(メタデータ) (2021-04-05T21:44:00Z) - Projected Hamming Dissimilarity for Bit-Level Importance Coding in
Collaborative Filtering [21.563733343861713]
各次元の2重み付けによるハミング空間における2つの物体間の相似性を測定する新しい方法を示す。
本稿では,このハミング差分法に最適化されたハッシュコードを学習するための変分ハッシュモデルを提案する。
結果として得られるハッシュコードはNDCGで+7%、MRRで+14%の有効性向上につながります。
論文 参考訳(メタデータ) (2021-03-26T13:22:31Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z) - Learning the Positions in CountSketch [51.15935547615698]
本稿では,まずランダムなスケッチ行列に乗じてデータを圧縮し,最適化問題を高速に解くスケッチアルゴリズムについて検討する。
本研究では,ゼロでないエントリの位置を最適化する学習アルゴリズムを提案する。
このアルゴリズムは, 従来よりも低階近似の精度を向上し, 初めて$k$-meansクラスタリングのような他の問題に適用できることを示す。
論文 参考訳(メタデータ) (2020-07-20T05:06:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。