論文の概要: Topic model based on co-occurrence word networks for unbalanced short
text datasets
- arxiv url: http://arxiv.org/abs/2311.02566v1
- Date: Sun, 5 Nov 2023 04:44:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 16:52:03.455028
- Title: Topic model based on co-occurrence word networks for unbalanced short
text datasets
- Title(参考訳): 非バランス短文データセットのための共起語ネットワークに基づくトピックモデル
- Authors: Chengjie Ma, Junping Du, Meiyu Liang, Zeli Guan
- Abstract要約: CWUTMは、アンバランスな短文データセットのための共起語ネットワークに基づくモデルである。
CWUTMは、新興トピックや予期せぬイベントを社会的プラットフォーム上で早期かつ正確な検出に有効である。
- 参考スコア(独自算出の注目度): 10.17051969425986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a straightforward solution for detecting scarce topics in
unbalanced short-text datasets. Our approach, named CWUTM (Topic model based on
co-occurrence word networks for unbalanced short text datasets), Our approach
addresses the challenge of sparse and unbalanced short text topics by
mitigating the effects of incidental word co-occurrence. This allows our model
to prioritize the identification of scarce topics (Low-frequency topics).
Unlike previous methods, CWUTM leverages co-occurrence word networks to capture
the topic distribution of each word, and we enhanced the sensitivity in
identifying scarce topics by redefining the calculation of node activity and
normalizing the representation of both scarce and abundant topics to some
extent. Moreover, CWUTM adopts Gibbs sampling, similar to LDA, making it easily
adaptable to various application scenarios. Our extensive experimental
validation on unbalanced short-text datasets demonstrates the superiority of
CWUTM compared to baseline approaches in discovering scarce topics. According
to the experimental results the proposed model is effective in early and
accurate detection of emerging topics or unexpected events on social platforms.
- Abstract(参考訳): 非バランスなショートテキストデータセットにおいて,不足するトピックを検出するための簡単なソリューションを提案する。
cwutm(co-occurrence word networks for unbalanced short text datasetsに基づくトピックモデル)と名づけたこのアプローチは,付随する単語共起の効果を緩和することにより,スパースかつアンバランスなショートテキストトピックの課題に対処する。
これにより、我々のモデルは不足するトピック(低頻度トピック)の識別を優先順位付けできる。
従来の手法とは異なり、cwutmは共起語ネットワークを利用して各単語の話題分布を捉え、ノード活動の計算を再定義し、希少なトピックと豊富なトピックの両方の表現をある程度正規化することにより、希少なトピックを識別する感度を高めた。
さらに、CWUTMは、LDAと同様のGibbsサンプリングを採用しており、様々なアプリケーションシナリオに容易に適応できる。
非バランスな短文データセットに対する大規模な実験的検証は、不足するトピックの発見におけるベースラインアプローチと比較してCWUTMの優位性を示している。
実験結果によると,提案モデルは,ソーシャルプラットフォーム上での話題や予期せぬ事象の早期かつ正確な検出に有効である。
関連論文リスト
- Enhancing Short-Text Topic Modeling with LLM-Driven Context Expansion and Prefix-Tuned VAEs [25.915607750636333]
本稿では,大規模言語モデル(LLM)を利用して,トピックモデリングを適用する前に,短いテキストをより詳細なシーケンスに拡張する手法を提案する。
提案手法は,データ空間が極端である実世界のデータセットに対する広範な実験により,短文のトピックモデリング性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-10-04T01:28:56Z) - Let the Pretrained Language Models "Imagine" for Short Texts Topic
Modeling [29.87929724277381]
短いテキストでは、共起情報は最小限であり、結果として文書表現の特徴が分散する。
既存のトピックモデル(確率的あるいは神経的)は、ほとんどの場合、一貫性のあるトピックを生成するためにパターンのマイニングに失敗します。
既存の事前学習言語モデル(PLM)を用いて、短いテキストを長いシーケンスに拡張する。
論文 参考訳(メタデータ) (2023-10-24T00:23:30Z) - Boosting Event Extraction with Denoised Structure-to-Text Augmentation [52.21703002404442]
イベント抽出は、テキストから事前に定義されたイベントトリガと引数を認識することを目的としている。
最近のデータ拡張手法は文法的誤りの問題を無視することが多い。
本稿では,イベント抽出DAEEのための記述構造からテキストへの拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-16T16:52:07Z) - Mitigating Data Sparsity for Short Text Topic Modeling by Topic-Semantic
Contrastive Learning [19.7066703371736]
トピック・セマンティック・コントラスト・トピック・モデル(TSCTM)を提案する。
我々のTSCTMは、データ拡張の可用性に関わらず最先端のベースラインを上回り、高品質なトピックやトピックの分布を生成します。
論文 参考訳(メタデータ) (2022-11-23T11:33:43Z) - A Rare Topic Discovery Model for Short Texts Based on Co-occurrence word
Network [22.892530358885754]
CWIBTDは共起語ネットワークを用いて各単語のトピック分布をモデル化する。
我々のモデルは、新興トピックの早期かつ正確な発見や、ソーシャルプラットフォーム上での予期せぬ出来事に利用することができる。
論文 参考訳(メタデータ) (2022-06-30T11:33:35Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - ConvoSumm: Conversation Summarization Benchmark and Improved Abstractive
Summarization with Argument Mining [61.82562838486632]
我々は、さまざまなオンライン会話形式のニュースコメント、ディスカッションフォーラム、コミュニティ質問応答フォーラム、電子メールスレッドに関する4つの新しいデータセットをクラウドソースする。
我々は、データセットの最先端モデルをベンチマークし、データに関連する特徴を分析します。
論文 参考訳(メタデータ) (2021-06-01T22:17:13Z) - Unsupervised Summarization for Chat Logs with Topic-Oriented Ranking and
Context-Aware Auto-Encoders [59.038157066874255]
本稿では,手動ラベル付きデータを用いずにチャット要約を行うrankaeという新しいフレームワークを提案する。
RankAEは、中心性と多様性に応じてトピックの発話を同時に選択するトピック指向のランキング戦略で構成されています。
消音自動エンコーダは、選択された発話に基づいて簡潔でコンテキスト情報に基づいた要約を生成するように設計されています。
論文 参考訳(メタデータ) (2020-12-14T07:31:17Z) - Be More with Less: Hypergraph Attention Networks for Inductive Text
Classification [56.98218530073927]
グラフニューラルネットワーク(GNN)は、研究コミュニティで注目され、この標準タスクで有望な結果を実証している。
成功にもかかわらず、それらのパフォーマンスは、単語間の高次相互作用をキャプチャできないため、実際は大部分が危険に晒される可能性がある。
本稿では,テキスト表現学習において,少ない計算量でより表現力の高いハイパーグラフアテンションネットワーク(HyperGAT)を提案する。
論文 参考訳(メタデータ) (2020-11-01T00:21:59Z) - Context Reinforced Neural Topic Modeling over Short Texts [15.487822291146689]
文脈強化ニューラルトピックモデル(CRNTM)を提案する。
CRNTMは各単語のトピックを狭い範囲で推測し、各短いテキストがわずかにまとまったトピックだけをカバーしていると仮定する。
2つのベンチマークデータセットの実験は、トピック発見とテキスト分類の両方において提案モデルの有効性を検証する。
論文 参考訳(メタデータ) (2020-08-11T06:41:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。