論文の概要: SDEC: Semantic Deep Embedded Clustering
- arxiv url: http://arxiv.org/abs/2508.15823v1
- Date: Mon, 18 Aug 2025 02:08:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.091428
- Title: SDEC: Semantic Deep Embedded Clustering
- Title(参考訳): SDEC:Semantic Deep Embedded Clustering
- Authors: Mohammad Wali Ur Rahman, Ric Nevarez, Lamia Tasnim Mim, Salim Hariri,
- Abstract要約: この作業では、教師なしのテキストクラスタリングフレームワークであるSemantic Deep Embedded Clustering (SDEC)を提示する。
SDECは、自動エンコーダ内でMean Squared Error(MSE)とCosine similarity Loss(CSL)を組み合わせることで、データ再構成中の意味関係を保存する。
このフレームワークはAG Newsで85.7%のクラスタリング精度で既存の手法を上回り、Yahoo!で53.63%の新しいベンチマークを設定した。
- 参考スコア(独自算出の注目度): 0.31498833540989407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The high dimensional and semantically complex nature of textual Big data presents significant challenges for text clustering, which frequently lead to suboptimal groupings when using conventional techniques like k-means or hierarchical clustering. This work presents Semantic Deep Embedded Clustering (SDEC), an unsupervised text clustering framework that combines an improved autoencoder with transformer-based embeddings to overcome these challenges. This novel method preserves semantic relationships during data reconstruction by combining Mean Squared Error (MSE) and Cosine Similarity Loss (CSL) within an autoencoder. Furthermore, a semantic refinement stage that takes advantage of the contextual richness of transformer embeddings is used by SDEC to further improve a clustering layer with soft cluster assignments and distributional loss. The capabilities of SDEC are demonstrated by extensive testing on five benchmark datasets: AG News, Yahoo! Answers, DBPedia, Reuters 2, and Reuters 5. The framework not only outperformed existing methods with a clustering accuracy of 85.7% on AG News and set a new benchmark of 53.63% on Yahoo! Answers, but also showed robust performance across other diverse text corpora. These findings highlight the significant improvements in accuracy and semantic comprehension of text data provided by SDEC's advances in unsupervised text clustering.
- Abstract(参考訳): テキストビッグデータの高次元的および意味論的に複雑な性質は、テキストクラスタリングにおいて重要な課題を示し、k平均や階層的クラスタリングといった従来の手法を使用する場合、しばしば、最適なグループ化につながる。
この作業では、改善されたオートエンコーダとトランスフォーマーベースの埋め込みを組み合わせた、教師なしのテキストクラスタリングフレームワークであるSemantic Deep Embedded Clustering (SDEC)を紹介した。
この手法は,自動エンコーダ内の平均二乗誤差(MSE)とコサイン類似損失(CSL)を組み合わせることで,データ再構成中の意味的関係を保存する。
さらに,変圧器埋め込みの文脈的豊かさを活かしたセマンティック・リファインメント・ステージを用いて,ソフトクラスタ割り当てと分散損失によるクラスタリング層をさらに改善する。
SDECの能力は、AG News、Yahoo! Answers、DBPedia、Reuters 2、Reuters 5の5つのベンチマークデータセットで広範なテストによって実証されている。
このフレームワークはAG Newsで85.7%のクラスタリング精度で既存の手法を上回り、Yahoo!で53.63%の新しいベンチマークを設定した。
これらの知見は、SDECによる教師なしテキストクラスタリングの進歩によって得られたテキストデータの精度と意味的理解の大幅な改善を浮き彫りにした。
関連論文リスト
- An Enhanced Model-based Approach for Short Text Clustering [58.60681789677676]
Twitter、Google+、Facebookなどのソーシャルメディアの人気が高まり、短いテキストのクラスタリングがますます重要になっている。
既存の手法は、トピックモデルに基づくアプローチと深層表現学習に基づくアプローチの2つのパラダイムに大別することができる。
短文の空間性と高次元性を効果的に扱えるDirichlet Multinomial Mixture Model (GSDMM) のギブスサンプリングアルゴリズムを提案する。
さらなる改良を保証しているGSDMMのいくつかの側面に基づいて,さらなる性能向上を目的とした改良されたアプローチであるGSDMM+を提案する。
論文 参考訳(メタデータ) (2025-07-18T10:07:42Z) - An Improved Deep Learning Model for Word Embeddings Based Clustering for Large Text Datasets [0.0]
単語の埋め込みを微調整することで,大規模テキストデータセットのクラスタリングを改良する手法を提案する。
シルエットスコア、純度、調整されたランドインデックス(ARI)などのクラスタリング指標の大幅な改善を示す。
提案手法は,大規模テキストマイニング作業における意味的理解と統計的堅牢性のギャップを埋めるのに役立つ。
論文 参考訳(メタデータ) (2025-02-22T08:28:41Z) - Autoencoded UMAP-Enhanced Clustering for Unsupervised Learning [49.1574468325115]
本稿では,低次元空間にデータを非線形に埋め込み,次に従来のクラスタリングアルゴリズムを用いて非教師なし学習を行う手法を提案する。
この埋め込みはデータのクラスタビリティを促進し、オートエンコーダニューラルネットワークのエンコーダとUMAPアルゴリズムの出力の2つのマッピングで構成されている。
MNISTデータに適用した場合、AUECはクラスタリング精度において最先端技術よりも大幅に優れている。
論文 参考訳(メタデータ) (2025-01-13T22:30:38Z) - Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Clustering Algorithms and RAG Enhancing Semi-Supervised Text Classification with Large LLMs [1.6575279044457722]
本稿では,セミスーパービジョンテキスト分類タスクの性能向上を目的としたクラスタリング,ラベル付け,拡張フレームワークを提案する。
従来のSSTCアプローチとは異なり、このフレームワークはクラスタリングを使用してラベリングの代表的な"ランドマーク"を選択する。
実験の結果,100以上のカテゴリを含む複雑な文書分類シナリオにおいても,Reutersデータセットでは95.41%,Web of Scienceデータセットでは82.43%の最先端の精度を達成した。
論文 参考訳(メタデータ) (2024-11-09T13:17:39Z) - Federated Contrastive Learning for Personalized Semantic Communication [55.46383524190467]
我々は,パーソナライズされたセマンティックコミュニケーションを支援することを目的とした,協調型コントラスト学習フレームワークを設計する。
FedCLは、複数のクライアントにわたるローカルセマンティックエンコーダと、基地局が所有するグローバルセマンティックデコーダの協調トレーニングを可能にする。
分散クライアント間の異種データセットから生じるセマンティック不均衡問題に対処するために,コントラスト学習を用いてセマンティックセントロイドジェネレータを訓練する。
論文 参考訳(メタデータ) (2024-06-13T14:45:35Z) - Text Clustering with Large Language Model Embeddings [0.0]
テキストクラスタリングの有効性は、テキスト埋め込みとクラスタリングアルゴリズムの選択に大きく依存する。
大規模言語モデル(LLM)の最近の進歩は、このタスクを強化する可能性を秘めている。
LLM埋め込みは構造化言語の微妙さを捉えるのに優れていることを示す。
論文 参考訳(メタデータ) (2024-03-22T11:08:48Z) - Compositional Generalization for Data-to-Text Generation [86.79706513098104]
本稿では,群に述語をクラスタ化することで構成一般化に対処する新しいモデルを提案する。
本モデルでは,1つの述語を1度に1つのクラスタに依存して文単位でテキストを生成する。
すべての評価指標でT5ベースラインをはるかに上回る。
論文 参考訳(メタデータ) (2023-12-05T13:23:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。