論文の概要: A Rare Topic Discovery Model for Short Texts Based on Co-occurrence word
Network
- arxiv url: http://arxiv.org/abs/2207.00432v1
- Date: Thu, 30 Jun 2022 11:33:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-04 14:56:57.237030
- Title: A Rare Topic Discovery Model for Short Texts Based on Co-occurrence word
Network
- Title(参考訳): 共起語ネットワークに基づく短いテキストに対するまれなトピック発見モデル
- Authors: Chengjie Ma, Junping Du, Yingxia Shao, Ang Li, Zeli Guan
- Abstract要約: CWIBTDは共起語ネットワークを用いて各単語のトピック分布をモデル化する。
我々のモデルは、新興トピックの早期かつ正確な発見や、ソーシャルプラットフォーム上での予期せぬ出来事に利用することができる。
- 参考スコア(独自算出の注目度): 22.892530358885754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We provide a simple and general solution for the discovery of scarce topics
in unbalanced short-text datasets, namely, a word co-occurrence network-based
model CWIBTD, which can simultaneously address the sparsity and unbalance of
short-text topics and attenuate the effect of occasional pairwise occurrences
of words, allowing the model to focus more on the discovery of scarce topics.
Unlike previous approaches, CWIBTD uses co-occurrence word networks to model
the topic distribution of each word, which improves the semantic density of the
data space and ensures its sensitivity in identify-ing rare topics by improving
the way node activity is calculated and normal-izing scarce topics and large
topics to some extent. In addition, using the same Gibbs sampling as LDA makes
CWIBTD easy to be extended to vari-ous application scenarios. Extensive
experimental validation in the unbal-anced short text dataset confirms the
superiority of CWIBTD over the base-line approach in discovering rare topics.
Our model can be used for early and accurate discovery of emerging topics or
unexpected events on social platforms.
- Abstract(参考訳): 単語共起型ネットワークベースモデルcwibtdにおいて,単語のスパース性とアンバランスを同時に解決し,単語のペアワイズ発生の影響を弱め,希少な話題の発見に重きを置くことが可能な,不均衡な短文データセットにおける不足トピックの発見のための簡易かつ汎用的なソリューションを提供する。
以前のアプローチとは異なり、cwibtdは共起語ネットワークを使用して各単語の話題分布をモデル化し、データ空間の意味密度を高め、ノードのアクティビティの計算方法を改善し、希少なトピックや大きなトピックをある程度正規化することで、希少なトピックを識別する感度を確保する。
加えて、LDAと同じGibbsサンプリングを使用することで、CWIBTDを多種多様なアプリケーションシナリオに容易に拡張できる。
不均質な短文データセットにおける大規模な実験的検証は、稀なトピックを発見するためのベースラインアプローチよりもCWIBTDの方が優れていることを確認する。
当社のモデルは,新興トピックの早期かつ正確な発見や,ソーシャルプラットフォーム上の予期せぬイベントに利用することが可能です。
関連論文リスト
- Enhancing Short-Text Topic Modeling with LLM-Driven Context Expansion and Prefix-Tuned VAEs [25.915607750636333]
本稿では,大規模言語モデル(LLM)を利用して,トピックモデリングを適用する前に,短いテキストをより詳細なシーケンスに拡張する手法を提案する。
提案手法は,データ空間が極端である実世界のデータセットに対する広範な実験により,短文のトピックモデリング性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-10-04T01:28:56Z) - Topic model based on co-occurrence word networks for unbalanced short
text datasets [10.17051969425986]
CWUTMは、アンバランスな短文データセットのための共起語ネットワークに基づくモデルである。
CWUTMは、新興トピックや予期せぬイベントを社会的プラットフォーム上で早期かつ正確な検出に有効である。
論文 参考訳(メタデータ) (2023-11-05T04:44:23Z) - Improving the Inference of Topic Models via Infinite Latent State
Replications [18.632435007093594]
トピックモデルに対する最も一般的な推論手法の1つは、おそらく崩壊したギブスサンプリング(CGS)である。
本稿では, トピックサンプル数を無限大に最大化することで, 状態拡張技術を活用することを提案する。
そこで我々は,各文書と単語のペアごとに頑健なソフトトピック代入を生成するために,無限潜在状態複製 (ILR) と呼ばれる新しい推論手法を開発した。
論文 参考訳(メタデータ) (2023-01-25T17:07:25Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Phrase-BERT: Improved Phrase Embeddings from BERT with an Application to
Corpus Exploration [25.159601117722936]
我々は,BERTがより強力なフレーズ埋め込みを生成可能な,対照的な微調整対象を提案する。
提案手法は,パラフレーズ生成モデルを用いて自動生成される多種多様なパラフレーズのデータセットに依存する。
ケーススタディでは、フレーズベースのニューラルトピックモデルを構築するために、Phrase-BERT埋め込みを単純なオートエンコーダと簡単に統合できることが示されている。
論文 参考訳(メタデータ) (2021-09-13T20:31:57Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Context Decoupling Augmentation for Weakly Supervised Semantic
Segmentation [53.49821324597837]
微調整されたセマンティックセグメンテーションは、近年深く研究されている困難な問題です。
本稿では、オブジェクトが現れる固有のコンテキストを変更する Context Decoupling Augmentation (CDA) メソッドを紹介します。
提案手法の有効性を検証するため, PASCAL VOC 2012データセットにいくつかの代替ネットワークアーキテクチャを用いた広範な実験を行い, CDAが様々なWSSS手法を新たな最先端技術に拡張できることを実証した。
論文 参考訳(メタデータ) (2021-03-02T15:05:09Z) - Be More with Less: Hypergraph Attention Networks for Inductive Text
Classification [56.98218530073927]
グラフニューラルネットワーク(GNN)は、研究コミュニティで注目され、この標準タスクで有望な結果を実証している。
成功にもかかわらず、それらのパフォーマンスは、単語間の高次相互作用をキャプチャできないため、実際は大部分が危険に晒される可能性がある。
本稿では,テキスト表現学習において,少ない計算量でより表現力の高いハイパーグラフアテンションネットワーク(HyperGAT)を提案する。
論文 参考訳(メタデータ) (2020-11-01T00:21:59Z) - Open-set Short Utterance Forensic Speaker Verification using
Teacher-Student Network with Explicit Inductive Bias [59.788358876316295]
そこで本研究では,小規模の法定フィールドデータセット上での話者検証を改善するためのパイプラインソリューションを提案する。
大規模領域外データセットを活用することで,教師学習のための知識蒸留に基づく目的関数を提案する。
提案する目的関数は,短時間の発話における教師学生の学習性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2020-09-21T00:58:40Z) - Context Reinforced Neural Topic Modeling over Short Texts [15.487822291146689]
文脈強化ニューラルトピックモデル(CRNTM)を提案する。
CRNTMは各単語のトピックを狭い範囲で推測し、各短いテキストがわずかにまとまったトピックだけをカバーしていると仮定する。
2つのベンチマークデータセットの実験は、トピック発見とテキスト分類の両方において提案モデルの有効性を検証する。
論文 参考訳(メタデータ) (2020-08-11T06:41:53Z) - Temporal Common Sense Acquisition with Minimal Supervision [77.8308414884754]
この研究は、時間的常識の明示的で暗黙的な言及を活用する新しいシーケンスモデリング手法を提案する。
本手法は,時間的共通感覚の様々な次元の質予測を行う。
また、時間比較、親子関係、イベントコア参照、時間的QAなど、関連するタスクに対するイベントの表現も生成する。
論文 参考訳(メタデータ) (2020-05-08T22:20:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。