論文の概要: A Process for Topic Modelling Via Word Embeddings
- arxiv url: http://arxiv.org/abs/2312.03705v1
- Date: Fri, 6 Oct 2023 15:10:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 15:12:25.628052
- Title: A Process for Topic Modelling Via Word Embeddings
- Title(参考訳): 単語埋め込みによるトピックモデリングの一手法
- Authors: Diego Salda\~na Ulloa
- Abstract要約: この研究は、単語の埋め込み、次元の縮小、クラスタリングに基づくアルゴリズムを組み合わせる。
目的は、未分類テキストの集合からトピックを取得することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work combines algorithms based on word embeddings, dimensionality
reduction, and clustering. The objective is to obtain topics from a set of
unclassified texts. The algorithm to obtain the word embeddings is the BERT
model, a neural network architecture widely used in NLP tasks. Due to the high
dimensionality, a dimensionality reduction technique called UMAP is used. This
method manages to reduce the dimensions while preserving part of the local and
global information of the original data. K-Means is used as the clustering
algorithm to obtain the topics. Then, the topics are evaluated using the TF-IDF
statistics, Topic Diversity, and Topic Coherence to get the meaning of the
words on the clusters. The results of the process show good values, so the
topic modeling of this process is a viable option for classifying or clustering
texts without labels.
- Abstract(参考訳): この研究は、単語埋め込み、次元縮小、クラスタリングに基づくアルゴリズムを組み合わせる。
目的は、未分類のテキストからトピックを取得することである。
単語の埋め込みを得るアルゴリズムは、NLPタスクで広く使われているニューラルネットワークアーキテクチャであるBERTモデルである。
高次元性のため、UMAPと呼ばれる次元削減技術が用いられている。
本手法は、元のデータの局所的およびグローバル的情報の一部を保存しつつ、寸法を削減できる。
K-Meansはクラスタリングアルゴリズムとして使われ、トピックを得る。
次に、TF-IDF統計、トピック多様性、トピックコヒーレンスを用いてトピックを評価し、クラスタ上の単語の意味を取得する。
プロセスの結果は良い値を示すので、このプロセスのトピックモデリングはラベルなしでテキストを分類またはクラスタリングするための実行可能な選択肢である。
関連論文リスト
- Empowering Interdisciplinary Research with BERT-Based Models: An Approach Through SciBERT-CNN with Topic Modeling [0.0]
本稿では,SciBERTモデルとCNNを用いて,学術論文を体系的に分類する手法を提案する。
CNNは、畳み込みとプーリングを使用して特徴抽出を強化し、次元を減少させる。
論文 参考訳(メタデータ) (2024-04-16T05:21:47Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic
Segmentation [59.37587762543934]
本稿では,弱開語彙セマンティックセマンティックセグメンテーション(WOVSS)の問題点について検討する。
既存の方法は、グループトークンの使用に関する粒度の矛盾に悩まされる。
マルチモーダル正規化を組み込んだプロトタイプ誘導ネットワーク(PGSeg)を提案する。
論文 参考訳(メタデータ) (2023-10-29T13:18:00Z) - Adaptively Clustering Neighbor Elements for Image-Text Generation [78.82346492527425]
我々はtextbfACF と呼ばれるトランスフォーマーに基づく新しい画像テキスト生成モデルを提案する。
ACFは、視覚パッチをオブジェクト領域と言語単語に適応的にクラスタリングし、暗黙的にオブジェクト・フレーズのアライメントを学習する。
実験の結果,ほとんどのSOTAキャプションやVQAモデルよりも優れたACFの有効性が示された。
論文 参考訳(メタデータ) (2023-01-05T08:37:36Z) - Word Embeddings and Validity Indexes in Fuzzy Clustering [5.063728016437489]
単語の様々なベクトル表現、すなわち単語埋め込みのファジィに基づく解析。
我々は2つのファジィクラスタリングアルゴリズムをカウントベースの単語埋め込みに使用し、異なる手法と次元を持つ。
本研究では,様々なクラスタリング妥当性指標を用いた実験結果を評価し,異なるアルゴリズム変動と異なる埋め込み精度を比較した。
論文 参考訳(メタデータ) (2022-04-26T18:08:19Z) - A Proposition-Level Clustering Approach for Multi-Document Summarization [82.4616498914049]
クラスタリングアプローチを再検討し、より正確な情報アライメントの提案をグループ化します。
提案手法は,有意な命題を検出し,それらをパラフラスティックなクラスタに分類し,その命題を融合して各クラスタの代表文を生成する。
DUC 2004 とTAC 2011 データセットでは,従来の最先端 MDS 法よりも要約法が優れている。
論文 参考訳(メタデータ) (2021-12-16T10:34:22Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Amharic Text Clustering Using Encyclopedic Knowledge with Neural Word
Embedding [0.0]
本稿では,エンシクロペディック・ナレッジ(EK)とニューラルワードの埋め込みを用いて,アムハラ文字の文書をクラスタリングするシステムを提案する。
実験の結果,文書クラスタリングにおける単語埋め込みによるEKの使用は,EKのみの使用よりも平均精度を向上させることがわかった。
論文 参考訳(メタデータ) (2021-03-31T05:37:33Z) - Event-Driven News Stream Clustering using Entity-Aware Contextual
Embeddings [14.225334321146779]
本稿では,非パラメトリックストリーミングk-meansアルゴリズムの変種であるオンラインニュースストリームクラスタリング手法を提案する。
我々のモデルはスパースと密集した文書表現の組み合わせを使用し、これらの複数の表現に沿って文書とクラスタの類似性を集約する。
事前学習したトランスフォーマモデルにおいて,適切な微調整目標と外部知識を用いることにより,文脈埋め込みの有効性が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-01-26T19:58:30Z) - Accelerating Text Mining Using Domain-Specific Stop Word Lists [57.76576681191192]
本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
論文 参考訳(メタデータ) (2020-11-18T17:42:32Z) - Tired of Topic Models? Clusters of Pretrained Word Embeddings Make for
Fast and Good Topics too! [5.819224524813161]
事前学習した単語の埋め込みをクラスタリングし、重み付けされたクラスタリングと上位単語の再ランク付けのための文書情報を組み込んだ別の方法を提案する。
このアプローチの最も優れた組み合わせは、従来のトピックモデルと同様に機能するが、ランタイムと計算の複雑さは低い。
論文 参考訳(メタデータ) (2020-04-30T16:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。