Fugu-MT 論文翻訳(概要): Enhancement of Short Text Clustering by Iterative Classification

論文の概要: Enhancement of Short Text Clustering by Iterative Classification

arxiv url: http://arxiv.org/abs/2001.11631v1
Date: Fri, 31 Jan 2020 02:12:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-05 06:03:15.603575
Title: Enhancement of Short Text Clustering by Iterative Classification
Title（参考訳）: 反復分類による短文クラスタリングの強化
Authors: Md Rashadul Hasan Rakib, Norbert Zeh, Magdalena Jankowska, Evangelos Milios
Abstract要約: 反復分類は、外乱のないクラスターを得るために外乱除去を適用する。クラスタ分布に基づいて非アウトレーヤを用いて分類アルゴリズムを訓練する。これを何回か繰り返すことで、より改良されたテキストのクラスタリングが得られる。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Short text clustering is a challenging task due to the lack of signal contained in such short texts. In this work, we propose iterative classification as a method to b o ost the clustering quality (e.g., accuracy) of short texts. Given a clustering of short texts obtained using an arbitrary clustering algorithm, iterative classification applies outlier removal to obtain outlier-free clusters. Then it trains a classification algorithm using the non-outliers based on their cluster distributions. Using the trained classification model, iterative classification reclassifies the outliers to obtain a new set of clusters. By repeating this several times, we obtain a much improved clustering of texts. Our experimental results show that the proposed clustering enhancement method not only improves the clustering quality of different clustering methods (e.g., k-means, k-means--, and hierarchical clustering) but also outperforms the state-of-the-art short text clustering methods on several short text datasets by a statistically significant margin.
Abstract（参考訳）: 短いテキストクラスタリングは、このような短いテキストに含まれる信号が欠如しているため、難しいタスクである。本研究では,短いテキストのクラスタリング品質(例えば,精度)をb o にする方法として反復分類を提案する。任意のクラスタリングアルゴリズムを用いて得られた短いテキストのクラスタリングが与えられると、反復的分類は外れ値除去を適用し、外れ値のないクラスタを得る。そして、クラスタ分布に基づいて非アウトレーヤを用いて分類アルゴリズムを訓練する。訓練された分類モデルを使用して、反復的分類は外れ値を再分類し、新しいクラスタ群を得る。これを数回繰り返すことで、テキストのクラスタリングが大幅に改善された。提案手法は,異なるクラスタリング手法(k-means,k-means--,階層クラスタリングなど)のクラスタリング品質を向上させるだけでなく,いくつかの短文データセットにおける最先端の短文クラスタリング手法を統計的に有意なマージンで上回っている。

関連論文リスト

K*-Means: A Parameter-free Clustering Algorithm [55.20132267309382]
k*-meansは、kや他のパラメータをセットする必要がない新しいクラスタリングアルゴリズムである。最小記述長の原理を用いて、クラスタの分割とマージによって最適なクラスタ数k*を自動的に決定する。 k*-平均が収束することが保証されることを証明し、kが未知のシナリオにおいて既存のメソッドよりも著しく優れていることを実験的に証明する。
論文参考訳（メタデータ） (2025-05-17T08:41:07Z)
k-LLMmeans: Summaries as Centroids for Interpretable and Scalable LLM-Based Text Clustering [0.0]
k-LLMmeansは,LLMを用いてテキスト要約をクラスタセンタロイドとして生成する,k-meansクラスタリングアルゴリズムの新たな改良である。この修正は、より高い解釈性を提供しながら、k-平均の性質を保っている。本稿では,シーケンシャルテキストストリームにおけるクラスタセントロイドの解釈可能性を示すケーススタディを提案する。
論文参考訳（メタデータ） (2025-02-12T19:50:22Z)
Reinforcement Graph Clustering with Unknown Cluster Number [91.4861135742095]
本稿では,Reinforcement Graph Clusteringと呼ばれる新しいディープグラフクラスタリング手法を提案する。提案手法では,クラスタ数決定と教師なし表現学習を統一的なフレームワークに統合する。フィードバック動作を行うために、クラスタリング指向の報酬関数を提案し、同一クラスタの凝集を高め、異なるクラスタを分離する。
論文参考訳（メタデータ） (2023-08-13T18:12:28Z)
Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文参考訳（メタデータ） (2023-06-18T08:46:06Z)
CEIL: A General Classification-Enhanced Iterative Learning Framework for Text Clustering [16.08402937918212]
短文クラスタリングのための新しい分類強化反復学習フレームワークを提案する。各イテレーションにおいて、まず最初に言語モデルを採用して、初期テキスト表現を検索する。厳密なデータフィルタリングと集約プロセスの後、クリーンなカテゴリラベルを持つサンプルが検索され、監督情報として機能する。最後に、表現能力が改善された更新言語モデルを使用して、次のイテレーションでクラスタリングを強化する。
論文参考訳（メタデータ） (2023-04-20T14:04:31Z)
A Proposition-Level Clustering Approach for Multi-Document Summarization [82.4616498914049]
クラスタリングアプローチを再検討し、より正確な情報アライメントの提案をグループ化します。提案手法は,有意な命題を検出し,それらをパラフラスティックなクラスタに分類し,その命題を融合して各クラスタの代表文を生成する。 DUC 2004 とTAC 2011 データセットでは,従来の最先端 MDS 法よりも要約法が優れている。
論文参考訳（メタデータ） (2021-12-16T10:34:22Z)
You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文参考訳（メタデータ） (2021-06-03T14:59:59Z)
Graph Contrastive Clustering [131.67881457114316]
本稿では,クラスタリングタスクに適用可能な新しいグラフコントラスト学習フレームワークを提案し,gcc(graph constrastive clustering)法を考案した。特に、グラフラプラシアンに基づくコントラスト損失は、より識別的かつクラスタリングフレンドリーな特徴を学ぶために提案されている。一方で、よりコンパクトなクラスタリング割り当てを学ぶために、グラフベースのコントラスト学習戦略が提案されている。
論文参考訳（メタデータ） (2021-04-03T15:32:49Z)
CAC: A Clustering Based Framework for Classification [20.372627144885158]
分類アウェアクラスタリング(CAC)と呼ばれるシンプルで効率的で汎用的なフレームワークを設計する。本実験は,クラスタリングと分類を併用した従来の手法よりもCACの有効性を示すものである。
論文参考訳（メタデータ） (2021-02-23T18:59:39Z)
Predictive K-means with local models [0.028675177318965035]
予測クラスタリングは、2つの世界のベストを獲得しようとします。この手法を用いて2つの新しいアルゴリズムを提案し、予測性能に競争力があることを様々なデータセットで示す。
論文参考訳（メタデータ） (2020-12-16T10:49:36Z)
Neural Text Classification by Jointly Learning to Cluster and Align [5.969960391685054]
我々は、潜在変数モデルを介してクラスタセンターを誘導し、分散単語の埋め込みと相互作用することで、ニューラルネットワークによるクラスタリングアプローチをテキスト分類タスクに拡張する。提案手法は,単語クラスタリングセンタロイドとクラスタリングトーケンアライメントを共同で学習し,複数のベンチマークデータセット上で技術結果の状態を達成している。
論文参考訳（メタデータ） (2020-11-24T16:07:18Z)
Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文参考訳（メタデータ） (2020-10-22T15:58:35Z)
Progressive Cluster Purification for Unsupervised Feature Learning [48.87365358296371]
教師なしの特徴学習では、サンプル特異性に基づく手法はクラス間の情報を無視する。本稿では,プログレッシブクラスタ形成時にクラス不整合サンプルを除外するクラスタリングに基づく新しい手法を提案する。我々の手法は、プログレッシブ・クラスタ・パーフィケーション(PCP)と呼ばれ、訓練中に徐々にクラスタ数を減らし、プログレッシブ・クラスタリングを実装している。
論文参考訳（メタデータ） (2020-07-06T08:11:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。