論文の概要: Top2Vec: Distributed Representations of Topics
- arxiv url: http://arxiv.org/abs/2008.09470v1
- Date: Wed, 19 Aug 2020 20:58:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 08:42:21.313862
- Title: Top2Vec: Distributed Representations of Topics
- Title(参考訳): Top2Vec: トピックの分散表現
- Authors: Dimo Angelov
- Abstract要約: トピックモデリングは、文書の大規模なコレクションにおいて潜在意味構造(通常トピックと呼ばれる)を発見するのに使用される。
共同文書と単語セマンティック埋め込みを利用してトピックを検索するtexttttop2vec$を提示する。
実験の結果, $texttttop2vec$ は確率的生成モデルよりも, 学習したコーパスの有意に情報的, 代表的なトピックを見つけることができた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Topic modeling is used for discovering latent semantic structure, usually
referred to as topics, in a large collection of documents. The most widely used
methods are Latent Dirichlet Allocation and Probabilistic Latent Semantic
Analysis. Despite their popularity they have several weaknesses. In order to
achieve optimal results they often require the number of topics to be known,
custom stop-word lists, stemming, and lemmatization. Additionally these methods
rely on bag-of-words representation of documents which ignore the ordering and
semantics of words. Distributed representations of documents and words have
gained popularity due to their ability to capture semantics of words and
documents. We present $\texttt{top2vec}$, which leverages joint document and
word semantic embedding to find $\textit{topic vectors}$. This model does not
require stop-word lists, stemming or lemmatization, and it automatically finds
the number of topics. The resulting topic vectors are jointly embedded with the
document and word vectors with distance between them representing semantic
similarity. Our experiments demonstrate that $\texttt{top2vec}$ finds topics
which are significantly more informative and representative of the corpus
trained on than probabilistic generative models.
- Abstract(参考訳): トピックモデリングは、ドキュメントの大規模なコレクションにおいて、通常トピックと呼ばれる潜在意味構造を発見するために使用される。
最も広く使われている方法は、潜在ディリクレ割当と確率的潜在意味分析である。
人気にもかかわらず、いくつかの弱点がある。
最適な結果を得るためには、しばしば既知のトピックの数、カスタムのストップワードリスト、スリーミング、補題化が必要となる。
さらに、これらの手法は、単語の順序や意味を無視する文書のバガオブワード表現に依存している。
文書や単語の分散表現は、単語や文書のセマンティクスをキャプチャする能力によって人気を博している。
これはjoint documentとword semantic embeddedを利用して$\textit{topic vectors}$を見つける。
このモデルは、ストーミングや補題化などの停止語リストを必要とせず、自動的にトピックの数を見つける。
得られた話題ベクトルは、意味的類似性を表す文書と単語ベクトルとを結合して埋め込む。
実験の結果, 確率的生成モデルよりも, 学習したコーパスのより情報的, 代表的なトピックを$\texttt{top2vec}$で見つけることができた。
関連論文リスト
- A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Conversational Semantic Parsing using Dynamic Context Graphs [68.72121830563906]
汎用知識グラフ(KG)を用いた会話意味解析の課題を,数百万のエンティティと数千のリレーショナルタイプで検討する。
ユーザ発話を実行可能な論理形式にインタラクティブにマッピングできるモデルに焦点を当てる。
論文 参考訳(メタデータ) (2023-05-04T16:04:41Z) - Keyphrase Extraction Using Neighborhood Knowledge Based on Word
Embeddings [17.198907789163123]
我々は、単語埋め込みを背景知識として活用して、単語間グラフに意味情報を加えることにより、グラフベースのランキングモデルを強化する。
提案手法は,確立されたベンチマークデータセットを用いて評価し,単語の埋め込み近傍情報によりモデル性能が向上することを示す。
論文 参考訳(メタデータ) (2021-11-13T21:48:18Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Deriving Word Vectors from Contextualized Language Models using
Topic-Aware Mention Selection [46.97185212695267]
本稿では,この基本戦略に従って単語表現を学習する手法を提案する。
我々は、文脈を符号化するワードベクトルの袋ではなく、文脈化された言語モデル(CLM)を利用する。
この単純な戦略は、単語埋め込みや既存のCLMベースの戦略よりも意味的特性をより予測し、高品質な単語ベクトルに繋がることを示す。
論文 参考訳(メタデータ) (2021-06-15T08:02:42Z) - Enhanced word embeddings using multi-semantic representation through
lexical chains [1.8199326045904998]
フレキシブル・レキシカル・チェーンIIと固定レキシカル・チェーンIIという2つの新しいアルゴリズムを提案する。
これらのアルゴリズムは、語彙連鎖から派生した意味関係、語彙データベースからの以前の知識、および単一のシステムを形成するビルディングブロックとしての単語埋め込みにおける分布仮説の堅牢性を組み合わせている。
その結果、語彙チェーンと単語埋め込み表現の統合は、より複雑なシステムに対しても、最先端の結果を維持します。
論文 参考訳(メタデータ) (2021-01-22T09:43:33Z) - Using Holographically Compressed Embeddings in Question Answering [0.0]
本研究では,事前学習した埋め込みのホログラフィック圧縮を用いてトークン,そのパート・オブ・音声,名前付きエンティティタイプを表現する。
この実装は、修正された質問応答の繰り返しディープラーニングネットワークにおいて、意味的関係が保存され、高い性能が得られることを示す。
論文 参考訳(メタデータ) (2020-07-14T18:29:49Z) - Comparative Analysis of Word Embeddings for Capturing Word Similarities [0.0]
分散言語表現は、様々な自然言語処理タスクにおいて、言語表現において最も広く使われている技術となっている。
ディープラーニング技術に基づく自然言語処理モデルのほとんどは、単語埋め込みと呼ばれる、すでに訓練済みの分散単語表現を使用している。
適切な単語の埋め込みを選択することは 複雑な作業です なぜなら、投影された埋め込み空間は 人間にとって直感的ではないからです
論文 参考訳(メタデータ) (2020-05-08T01:16:03Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。