論文の概要: A Comparative Study on Transfer Learning and Distance Metrics in
Semantic Clustering over the COVID-19 Tweets
- arxiv url: http://arxiv.org/abs/2111.08658v1
- Date: Tue, 16 Nov 2021 17:44:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-17 13:27:31.856102
- Title: A Comparative Study on Transfer Learning and Distance Metrics in
Semantic Clustering over the COVID-19 Tweets
- Title(参考訳): COVID-19ツイートのセマンティッククラスタリングにおける移動学習と距離メトリクスの比較検討
- Authors: Elnaz Zafarani-Moattar, Mohammad Reza Kangavari, Amir Masoud Rahmani
- Abstract要約: 本論文は、新型コロナウイルスデータにおけるトピック検出の文脈における比較研究である。
本研究の目的は, 埋め込み法, 距離測定, クラスタリング法の3つの要素を同時に研究することである。
- 参考スコア(独自算出の注目度): 8.56191214166276
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper is a comparison study in the context of Topic Detection on
COVID-19 data. There are various approaches for Topic Detection, among which
the Clustering approach is selected in this paper. Clustering requires distance
and calculating distance needs embedding. The aim of this research is to
simultaneously study the three factors of embedding methods, distance metrics
and clustering methods and their interaction. A dataset including one-month
tweets collected with COVID-19-related hashtags is used for this study. Five
methods, from earlier to new methods, are selected among the embedding methods:
Word2Vec, fastText, GloVe, BERT and T5. Five clustering methods are
investigated in this paper that are: k-means, DBSCAN, OPTICS, spectral and
Jarvis-Patrick. Euclidian distance and Cosine distance as the most important
distance metrics in this field are also examined. First, more than 7,500 tests
are performed to tune the parameters. Then, all the different combinations of
embedding methods with distance metrics and clustering methods are investigated
by silhouette metric. The number of these combinations is 50 cases. First, the
results of these 50 tests are examined. Then, the rank of each method is taken
into account in all the tests of that method. Finally, the major variables of
the research (embedding methods, distance metrics and clustering methods) are
studied separately. Averaging is performed over the control variables to
neutralize their effect. The experimental results show that T5 strongly
outperforms other embedding methods in terms of silhouette metric. In terms of
distance metrics, cosine distance is weakly better. DBSCAN is also superior to
other methods in terms of clustering methods.
- Abstract(参考訳): 本稿は,covid-19データにおける話題検出の文脈における比較研究である。
トピック検出には様々なアプローチがあり、その中にはクラスタリング手法が選択されている。
クラスタリングは距離を必要とし、距離を計算するには埋め込みが必要です。
本研究の目的は,組込み方法,距離測定,クラスタリングの3つの要因とその相互作用を同時に研究することである。
この研究には、covid-19関連ハッシュタグで収集された1ヶ月のツイートを含むデータセットが使用されている。
埋め込みメソッドには、word2vec、fasttext、grave、bert、t5の5つのメソッドが選択される。
本論文では,k-means,DBSCAN,OPTICS,Spectrum,Jarvis-Patrickの5つのクラスタリング手法について検討した。
この分野における最も重要な距離指標としてのユークリッド距離とコサイン距離についても検討した。
まず、パラメータをチューニングするために7500以上のテストが実行される。
次に,距離メトリクスとクラスタリング手法を用いた埋め込み手法のすべての異なる組み合わせをシルエット計量を用いて検討する。
これらの組み合わせの数は50例である。
まず,これらの50試験の結果について検討した。
そして、その方法のすべてのテストにおいて、各メソッドのランクが考慮される。
最後に、研究の主要な変数(埋め込み法、距離測定法、クラスタリング法)を別々に研究する。
平均化は制御変数上で行われ、効果を中和する。
実験の結果,T5はシルエットメートル法で他の埋め込み法よりも優れていた。
距離測定の観点では、コサイン距離は弱く良い。
DBSCANはクラスタリング法において他の方法よりも優れている。
関連論文リスト
- Linear time Evidence Accumulation Clustering with KMeans [0.0]
この研究は、平均的なリンククラスタリングの振る舞いを模倣するトリックを記述する。
分割の密度を効率よく計算する方法を見つけ、二次的な複雑さから線形的な複雑さへのコストを削減した。
k平均結果は、計算コストを低く保ちながら、NMIの観点からは、最先端の技術に匹敵する。
論文 参考訳(メタデータ) (2023-11-15T14:12:59Z) - Relation-aware Ensemble Learning for Knowledge Graph Embedding [68.94900786314666]
我々は,既存の手法を関係性に配慮した方法で活用し,アンサンブルを学習することを提案する。
関係認識アンサンブルを用いてこれらのセマンティクスを探索すると、一般的なアンサンブル法よりもはるかに大きな検索空間が得られる。
本稿では,リレーショナルなアンサンブル重みを独立に検索する分割探索合成アルゴリズムRelEns-DSCを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:40:12Z) - Mixed-type Distance Shrinkage and Selection for Clustering via Kernel Metric Learning [0.0]
我々は、混合カーネルを用いて異種性を測定するKDSUMと呼ばれる計量を提案する。
我々は、KDSUMが既存の混合型メトリクスから均一な異性度メトリクスへの縮小法であることを実証した。
論文 参考訳(メタデータ) (2023-06-02T19:51:48Z) - Clustering Method for Time-Series Images Using Quantum-Inspired
Computing Technology [0.0]
時系列クラスタリングは、クラスタに関する事前の知識がなければ、時系列データの強力なデータマイニング技術として機能する。
本研究では,アニーリングマシンを利用した新しい時系列クラスタリング手法を提案する。
論文 参考訳(メタデータ) (2023-05-26T05:58:14Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - ck-means, a novel unsupervised learning method that combines fuzzy and
crispy clustering methods to extract intersecting data [1.827510863075184]
本稿では,2つの特徴以上の共通点を共有するデータをクラスタリングする手法を提案する。
この手法の主な考え方は、ファジィ C-Means (FCM) アルゴリズムを用いてファジィクラスタを生成することである。
このアルゴリズムはまた、シルエット指数(SI)によって与えられるクラスタの一貫性に従って、FCMとk平均アルゴリズムのための最適なクラスタ数を見つけることができる。
論文 参考訳(メタデータ) (2022-06-17T19:29:50Z) - Kernel distance measures for time series, random fields and other
structured data [71.61147615789537]
kdiffは、構造化データのインスタンス間の距離を推定するためのカーネルベースの新しい尺度である。
これはインスタンス間の自己類似性と交差類似性の両方を考慮し、距離分布の低い定量値を用いて定義される。
kdiffをクラスタリングと分類問題のための距離尺度として用いた分離性条件について,いくつかの理論的結果が得られた。
論文 参考訳(メタデータ) (2021-09-29T22:54:17Z) - Robust Trimmed k-means [70.88503833248159]
本稿では,外乱点とクラスタポイントを同時に識別するRobust Trimmed k-means (RTKM)を提案する。
RTKMは他の方法と競合することを示す。
論文 参考訳(メタデータ) (2021-08-16T15:49:40Z) - Stable and consistent density-based clustering via multiparameter
persistence [77.34726150561087]
トポロジカルデータ解析による次数-リップス構成について考察する。
我々は,入力データの摂動に対する安定性を,通信間距離を用いて解析する。
私たちはこれらのメソッドを、Persistableと呼ばれる密度ベースのクラスタリングのためのパイプラインに統合します。
論文 参考訳(メタデータ) (2020-05-18T19:45:04Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。