論文の概要: Hybrid Multisource Feature Fusion for the Text Clustering
- arxiv url: http://arxiv.org/abs/2108.10926v1
- Date: Tue, 24 Aug 2021 19:32:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-26 23:20:24.401568
- Title: Hybrid Multisource Feature Fusion for the Text Clustering
- Title(参考訳): テキストクラスタリングのためのハイブリッドマルチソース機能融合
- Authors: Jiaxuan Chen and Shenglin Gui
- Abstract要約: テキストクラスタリング技術は、大量のテキスト文書をグループに分割するために使用される教師なしのテキストマイニング手法である。
本稿では,3つのコンポーネント,マルチモデルの特徴表現,相互類似度行列,特徴融合からなるハイブリッドマルチソース特徴融合(HMFF)フレームワークを提案する。
私たちのHMFFフレームワークは、11の公開ベンチマークデータセットのうち7つで、最近発表された他のアルゴリズムよりも優れています。
- 参考スコア(独自算出の注目度): 5.5586788751870175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The text clustering technique is an unsupervised text mining method which are
used to partition a huge amount of text documents into groups. It has been
reported that text clustering algorithms are hard to achieve better performance
than supervised methods and their clustering performance is highly dependent on
the picked text features. Currently, there are many different types of text
feature generation algorithms, each of which extracts text features from some
specific aspects, such as VSM and distributed word embedding, thus seeking a
new way of obtaining features as complete as possible from the corpus is the
key to enhance the clustering effects. In this paper, we present a hybrid
multisource feature fusion (HMFF) framework comprising three components,
feature representation of multimodel, mutual similarity matrices and feature
fusion, in which we construct mutual similarity matrices for each feature
source and fuse discriminative features from mutual similarity matrices by
reducing dimensionality to generate HMFF features, then k-means clustering
algorithm could be configured to partition input samples into groups. The
experimental tests show our HMFF framework outperforms other recently published
algorithms on 7 of 11 public benchmark datasets and has the leading performance
on the rest 4 benchmark datasets as well. At last, we compare HMFF framework
with those competitors on a COVID-19 dataset from the wild with the unknown
cluster count, which shows the clusters generated by HMFF framework partition
those similar samples much closer.
- Abstract(参考訳): テキストクラスタリング技術は教師なしテキストマイニング手法であり、膨大な量のテキスト文書をグループに分割するのに使われる。
テキストクラスタリングアルゴリズムは教師付き手法よりも優れたパフォーマンスを実現するのが難しく、クラスタリング性能は選択したテキスト機能に依存することが報告されている。
現在、テキスト特徴生成アルゴリズムにはさまざまな種類があり、それぞれがvsmや分散単語埋め込みといった特定の側面からテキスト特徴を抽出するため、コーパスから可能な限り完全な機能を得る新しい方法を求めることが、クラスタリング効果を強化する鍵となっている。
本稿では,マルチモデルの特徴表現,相互類似性行列,特徴融合という3つの要素からなるハイブリッド多元特徴融合(hmff)フレームワークを提案する。そこでは,各特徴点の相互類似性行列を構築し,相互類似性行列から相互類似性行列を融合し,次元を小さくしてhmff特徴を生成することにより,入力サンプルをグループに分割するk-meansクラスタリングアルゴリズムを構成できる。
実験の結果、HMFFフレームワークは11の公開ベンチマークデータセットのうち7つの公開アルゴリズムよりも優れており、残りの4つのベンチマークデータセットでも主要なパフォーマンスを示している。
最終的に、HMFFフレームワークと、野生のCOVID-19データセット上の競合相手と、未知のクラスタ数を比較した。
関連論文リスト
- k-LLMmeans: Summaries as Centroids for Interpretable and Scalable LLM-Based Text Clustering [0.0]
k-LLMmeansは,LLMを用いてテキスト要約をクラスタセンタロイドとして生成する,k-meansクラスタリングアルゴリズムの新たな改良である。
この修正は、より高い解釈性を提供しながら、k-平均の性質を保っている。
本稿では,シーケンシャルテキストストリームにおけるクラスタセントロイドの解釈可能性を示すケーススタディを提案する。
論文 参考訳(メタデータ) (2025-02-12T19:50:22Z) - Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic
Segmentation [59.37587762543934]
本稿では,弱開語彙セマンティックセマンティックセグメンテーション(WOVSS)の問題点について検討する。
既存の方法は、グループトークンの使用に関する粒度の矛盾に悩まされる。
マルチモーダル正規化を組み込んだプロトタイプ誘導ネットワーク(PGSeg)を提案する。
論文 参考訳(メタデータ) (2023-10-29T13:18:00Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z) - Influence of various text embeddings on clustering performance in NLP [0.0]
クラスタリングアプローチは、テキストレビューを個々のグループにグループ化することで、正しい星の評価を緩和するために使用することができる。
本稿では,これらのレビューを表現するために,異なるテキスト埋め込みを選択するタスクについて検討するとともに,組込み選択がクラスタリングアルゴリズムの様々なクラスの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2023-05-04T20:53:19Z) - ClusTop: An unsupervised and integrated text clustering and topic
extraction framework [3.3073775218038883]
教師なしテキストクラスタリングとトピック抽出フレームワーク(ClusTop)を提案する。
フレームワークには、拡張言語モデルトレーニング、次元削減、クラスタリング、トピック抽出の4つのコンポーネントが含まれている。
2つのデータセットの実験は、我々のフレームワークの有効性を実証している。
論文 参考訳(メタデータ) (2023-01-03T03:26:26Z) - A framework for benchmarking clustering algorithms [2.900810893770134]
クラスタリングアルゴリズムは、さまざまなベンチマーク問題でテストできる。
多くの研究論文や大学院論文では、少数のデータセットしか考慮していない。
我々はクラスタリングアルゴリズムをテストする一貫した方法論を導入することを目的としたフレームワークを開発した。
論文 参考訳(メタデータ) (2022-09-20T06:10:41Z) - Mixture Model Auto-Encoders: Deep Clustering through Dictionary Learning [72.9458277424712]
Mixture Model Auto-Encoders (MixMate)は、生成モデルで推論を実行することでデータをクラスタリングする新しいアーキテクチャである。
最先端のディープクラスタリングアルゴリズムと比較して,MixMateは競争性能が高いことを示す。
論文 参考訳(メタデータ) (2021-10-10T02:30:31Z) - Biclustering with Alternating K-Means [5.089110111757978]
本稿では,経験的クラスタリングリスクを最小限に抑えるというアイデアに基づいて,ビクラスタリング問題の新たな定式化について述べる。
カラムと行間のk-meansクラスタリングアルゴリズムの適応バージョンを交互に使用することにより,局所最小値を求める,単純で斬新なアルゴリズムを提案する。
その結果,本アルゴリズムは,データ中の有意義な構造を検知し,様々な設定や状況において競合する2クラスタリング手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-09-09T20:15:24Z) - Unsupervised Multi-view Clustering by Squeezing Hybrid Knowledge from
Cross View and Each View [68.88732535086338]
本稿では,適応グラフ正規化に基づくマルチビュークラスタリング手法を提案する。
5つの多視点ベンチマークの実験結果から,提案手法が他の最先端手法をクリアマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-08-23T08:25:06Z) - New advances in enumerative biclustering algorithms with online
partitioning [80.22629846165306]
さらに、数値データセットの列に定数値を持つ最大二クラスタの効率的で完全で正しい非冗長列挙を実現できる二クラスタリングアルゴリズムであるRIn-Close_CVCを拡張した。
改良されたアルゴリズムはRIn-Close_CVC3と呼ばれ、RIn-Close_CVCの魅力的な特性を保ちます。
論文 参考訳(メタデータ) (2020-03-07T14:54:26Z) - Conjoined Dirichlet Process [63.89763375457853]
我々はディリクレ過程に基づく新しい非パラメトリック確率的ビクラスタリング法を開発し、列と列の双方に強い共起を持つビクラスタを同定する。
本手法はテキストマイニングと遺伝子発現解析の2つの異なる応用に適用し,既存の手法に比べて多くの設定でビクラスタ抽出を改善することを示す。
論文 参考訳(メタデータ) (2020-02-08T19:41:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。