論文の概要: Classifying token frequencies using angular Minkowski $p$-distance
- arxiv url: http://arxiv.org/abs/2309.14495v1
- Date: Mon, 25 Sep 2023 19:45:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 15:55:44.082249
- Title: Classifying token frequencies using angular Minkowski $p$-distance
- Title(参考訳): angular minkowski $p$- distance を用いたトークン周波数の分類
- Authors: Oliver Urs Lenz, Chris Cornelis
- Abstract要約: Angular Minkowski $p$-distance はユークリッド距離を他の Minkowski $p$-distance の定義に置き換えることで得られる異方性測度である。
コサインの異性度はトークン周波数を含むデータセットで頻繁に使用され、角ばったMinkowski $p$-distanceは特定のタスクに対してさらに良い選択になる可能性がある。
- 参考スコア(独自算出の注目度): 1.5229257192293204
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Angular Minkowski $p$-distance is a dissimilarity measure that is obtained by
replacing Euclidean distance in the definition of cosine dissimilarity with
other Minkowski $p$-distances. Cosine dissimilarity is frequently used with
datasets containing token frequencies, and angular Minkowski $p$-distance may
potentially be an even better choice for certain tasks. In a case study based
on the 20-newsgroups dataset, we evaluate clasification performance for
classical weighted nearest neighbours, as well as fuzzy rough nearest
neighbours. In addition, we analyse the relationship between the hyperparameter
$p$, the dimensionality $m$ of the dataset, the number of neighbours $k$, the
choice of weights and the choice of classifier. We conclude that it is possible
to obtain substantially higher classification performance with angular
Minkowski $p$-distance with suitable values for $p$ than with classical cosine
dissimilarity.
- Abstract(参考訳): Angular Minkowski $p$-distance はユークリッド距離を他の Minkowski $p$-distance の定義に置き換えることで得られる異方性測度である。
cosine dis similarity はトークン周波数を含むデータセットで頻繁に使用され、angular minkowski $p$- distance は特定のタスクにとってさらに良い選択である可能性がある。
20ニューズグループデータセットに基づくケーススタディでは,古典的重み付き近隣住民のクラシファイション性能とファジィに近い近隣住民のクラシファイション性能を評価した。
さらに、ハイパーパラメータの$p$、データセットの次元の$m$、近隣の$k$、ウェイトの選択、分類器の選択との関係を分析する。
我々は,古典的コサインの相似性よりも,p$に対して適切な値を持つ角形Minkowski $p$-distanceを用いて,かなり高い分類性能を得ることができると結論付けた。
関連論文リスト
- Adaptive $k$-nearest neighbor classifier based on the local estimation of the shape operator [49.87315310656657]
我々は, 局所曲率をサンプルで探索し, 周辺面積を適応的に定義する適応型$k$-nearest(kK$-NN)アルゴリズムを提案する。
多くの実世界のデータセットから、新しい$kK$-NNアルゴリズムは、確立された$k$-NN法と比較してバランスの取れた精度が優れていることが示されている。
論文 参考訳(メタデータ) (2024-09-08T13:08:45Z) - Relative-Translation Invariant Wasserstein Distance [82.6068808353647]
距離の新しい族、相対翻訳不変ワッサーシュタイン距離(RW_p$)を導入する。
我々は、$RW_p 距離もまた、分布変換に不変な商集合 $mathcalP_p(mathbbRn)/sim$ 上で定義される実距離測度であることを示す。
論文 参考訳(メタデータ) (2024-09-04T03:41:44Z) - Geodesic Sinkhorn for Fast and Accurate Optimal Transport on Manifolds [53.110934987571355]
多様体グラフ上の熱核に基づく測地学的シンクホーンを提案する。
化学療法中の患者試料からの高次元単細胞データの複数分布のバリセンタの計算に本法を適用した。
論文 参考訳(メタデータ) (2022-11-02T00:51:35Z) - Bagged $k$-Distance for Mode-Based Clustering Using the Probability of
Localized Level Sets [7.208515071018781]
モードベースのクラスタリング(textitBDMBC)のためのtextitbagged $k$-distance というアンサンブル学習アルゴリズムを提案する。
理論的には、bagged $k$-distance, sub-sample size $s$, bagging rounds $B$, and the number of neighbors $k_L$ for the localized level set, BDMBC can achieve optimal convergence rate for mode estimation。
論文 参考訳(メタデータ) (2022-10-18T11:58:35Z) - Empirical complexity of comparator-based nearest neighbor descent [0.0]
K$-nearest 隣り合うアルゴリズムの Java 並列ストリームの実装を示す。
Kullback-Leiblerの発散比較器による実験は、$K$-nearest近くの更新ラウンドの数が直径の2倍を超えないという予測を支持している。
論文 参考訳(メタデータ) (2022-01-30T21:37:53Z) - Under-bagging Nearest Neighbors for Imbalanced Classification [63.026765294759876]
我々は,不均衡な分類問題に対して,textitunder-bagging $k$-NN (textitunder-bagging $k$-NN) というアンサンブル学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-01T14:10:38Z) - Optimal detection of the feature matching map in presence of noise and
outliers [0.0]
雑音観測から2組の$d$次元ベクトル間のマッチング写像を求める問題を考える。
一致する写像は射影であり、第二集合のベクトルが十分に分離されている場合に限り一貫して推定できる。
論文 参考訳(メタデータ) (2021-06-13T17:08:29Z) - $\gamma$-ABC: Outlier-Robust Approximate Bayesian Computation Based on a
Robust Divergence Estimator [95.71091446753414]
最寄りの$gamma$-divergence推定器をデータ差分尺度として用いることを提案する。
本手法は既存の不一致対策よりも高いロバスト性を実現する。
論文 参考訳(メタデータ) (2020-06-13T06:09:27Z) - Ranking a set of objects: a graph based least-square approach [70.7866286425868]
同一労働者の群集によるノイズの多いペアワイズ比較から始まる$N$オブジェクトのランク付けの問題について考察する。
品質評価のために,最小二乗内在的最適化基準に依存する非適応的ランキングアルゴリズムのクラスを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:19:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。