論文の概要: A novel sentence embedding based topic detection method for micro-blog
- arxiv url: http://arxiv.org/abs/2006.09977v1
- Date: Wed, 10 Jun 2020 09:58:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 04:03:26.720028
- Title: A novel sentence embedding based topic detection method for micro-blog
- Title(参考訳): マイクロブログのための新しい文埋め込みに基づく話題検出手法
- Authors: Cong Wan, Shan Jiang, Cuirong Wang, Cong Wang, Changming Xu, Xianxia
Chen, Ying Yuan
- Abstract要約: マイクロブログデータセットのトピックを検出するニューラルネットワークに基づく新しいアプローチを提案する。
ブログを埋め込み空間にマッピングするために、教師なしのニューラル文埋め込みモデルを使用します。
さらに,関係対応DBSCAN (RADBSCAN) と呼ばれる改良されたクラスタリングアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 5.821169298644354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Topic detection is a challenging task, especially without knowing the exact
number of topics. In this paper, we present a novel approach based on neural
network to detect topics in the micro-blogging dataset. We use an unsupervised
neural sentence embedding model to map the blogs to an embedding space. Our
model is a weighted power mean word embedding model, and the weights are
calculated by attention mechanism. Experimental result shows our embedding
method performs better than baselines in sentence clustering. In addition, we
propose an improved clustering algorithm referred as relationship-aware DBSCAN
(RADBSCAN). It can discover topics from a micro-blogging dataset, and the topic
number depends on dataset character itself. Moreover, in order to solve the
problem of parameters sensitive, we take blog forwarding relationship as a
bridge of two independent clusters. Finally, we validate our approach on a
dataset from sina micro-blog. The result shows that we can detect all the
topics successfully and extract keywords in each topic.
- Abstract(参考訳): トピック検出は、特にトピックの正確な数を知らずに難しいタスクである。
本稿では,マイクロブログデータセット内のトピックを検出するニューラルネットワークに基づく新しい手法を提案する。
ブログを埋め込み空間にマッピングするために、教師なしのニューラル文埋め込みモデルを使用します。
我々のモデルは重み付きパワー平均単語埋め込みモデルであり,重みは注意機構によって計算される。
実験の結果,本手法は文クラスタリングにおいてベースラインよりも優れた性能を示す。
さらに,関係対応DBSCAN (RADBSCAN) と呼ばれる改良されたクラスタリングアルゴリズムを提案する。
マイクロブロッギングデータセットからトピックを見つけることができ、トピック番号はデータセットの文字自身に依存する。
さらに,パラメータに敏感な問題を解くために,ブログフォワード関係を2つの独立したクラスタのブリッジとして扱う。
最後に,シナマイクロブログからのデータセットに対するアプローチを検証する。
その結果、すべてのトピックをうまく検出し、各トピックのキーワードを抽出することができる。
関連論文リスト
- CAST: Corpus-Aware Self-similarity Enhanced Topic modelling [16.562349140796115]
CAST: Corpus-Aware Self-similarity Enhanced Topic modelling, a novel topic modelling methodを紹介する。
機能的単語が候補話題語として振る舞うのを防ぐための効果的な指標として自己相似性を見出した。
提案手法は,生成したトピックの一貫性と多様性,およびノイズの多いデータを扱うトピックモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-19T15:27:11Z) - Explaining Datasets in Words: Statistical Models with Natural Language Parameters [66.69456696878842]
本稿では, クラスタリング, 時系列, 分類モデルなど, 自然言語の述語によってパラメータ化される統計モデル群を紹介する。
当社のフレームワークは、ユーザチャット対話の分類、時間の経過とともにどのように進化するかの特徴付け、一方の言語モデルが他方よりも優れているカテゴリを見つけることなど、幅広い問題に適用しています。
論文 参考訳(メタデータ) (2024-09-13T01:40:20Z) - Integrating Large Language Models with Graph-based Reasoning for Conversational Question Answering [58.17090503446995]
我々は,テキストや知識グラフ,テーブル,インフォボックスといった異質な情報源から収集された証拠について,文脈における質問の理解と推論の課題を組み合わせた会話型質問応答タスクに着目する。
提案手法はグラフ構造表現を用いて質問とその文脈に関する情報を集約する。
論文 参考訳(メタデータ) (2024-06-14T13:28:03Z) - A Process for Topic Modelling Via Word Embeddings [0.0]
この研究は、単語の埋め込み、次元の縮小、クラスタリングに基づくアルゴリズムを組み合わせる。
目的は、未分類テキストの集合からトピックを取得することである。
論文 参考訳(メタデータ) (2023-10-06T15:10:35Z) - Topics in the Haystack: Extracting and Evaluating Topics beyond
Coherence [0.0]
本稿では,文と文書のテーマを深く理解する手法を提案する。
これにより、一般的な単語やネオロジズムを含む潜在トピックを検出することができる。
本稿では, 侵入者の単語の人間識別と相関係数を示し, 単語侵入作業において, ほぼ人間レベルの結果を得る。
論文 参考訳(メタデータ) (2023-03-30T12:24:25Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - ConvoSumm: Conversation Summarization Benchmark and Improved Abstractive
Summarization with Argument Mining [61.82562838486632]
我々は、さまざまなオンライン会話形式のニュースコメント、ディスカッションフォーラム、コミュニティ質問応答フォーラム、電子メールスレッドに関する4つの新しいデータセットをクラウドソースする。
我々は、データセットの最先端モデルをベンチマークし、データに関連する特徴を分析します。
論文 参考訳(メタデータ) (2021-06-01T22:17:13Z) - Unsupervised Summarization for Chat Logs with Topic-Oriented Ranking and
Context-Aware Auto-Encoders [59.038157066874255]
本稿では,手動ラベル付きデータを用いずにチャット要約を行うrankaeという新しいフレームワークを提案する。
RankAEは、中心性と多様性に応じてトピックの発話を同時に選択するトピック指向のランキング戦略で構成されています。
消音自動エンコーダは、選択された発話に基づいて簡潔でコンテキスト情報に基づいた要約を生成するように設計されています。
論文 参考訳(メタデータ) (2020-12-14T07:31:17Z) - BATS: A Spectral Biclustering Approach to Single Document Topic Modeling
and Segmentation [17.003488045214972]
既存のトピックモデリングとテキストセグメンテーションの方法論は一般的に、トレーニングのために大きなデータセットを必要とする。
単一のドキュメントを扱う方法論を開発する際、我々は2つの大きな課題に直面します。
1つのドキュメントのみにアクセスすることで、従来のトピックモデルやディープラーニングアルゴリズムをトレーニングすることはできないのです。
第二に大きなノイズ: 単一の文書にある単語のかなりの部分がノイズのみを生成し、トピックやセグメントの識別に役立ちません。
論文 参考訳(メタデータ) (2020-08-05T16:34:33Z) - Improving unsupervised neural aspect extraction for online discussions
using out-of-domain classification [11.746330029375745]
本稿では,ニュースグループに基づくコンテンツから学んだ話題的側面を改善するために,文フィルタリングに基づく簡単なアプローチを提案する。
文フィルタリングがトピックコヒーレンスに与える影響を,未フィルタリングテキスト上で訓練されたアスペクト抽出モデルと比較した。
論文 参考訳(メタデータ) (2020-06-17T10:34:16Z) - The Paradigm Discovery Problem [121.79963594279893]
我々は、パラダイム発見問題を定式化し、システム判定のためのメトリクスを開発する。
5つの多言語に対する経験的結果について報告する。
私たちのコードとデータは公開されています。
論文 参考訳(メタデータ) (2020-05-04T16:38:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。