論文の概要: ComStreamClust: a communicative multi-agent approach to text clustering
in streaming data
- arxiv url: http://arxiv.org/abs/2010.05349v2
- Date: Tue, 27 Apr 2021 16:58:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 13:51:14.040057
- Title: ComStreamClust: a communicative multi-agent approach to text clustering
in streaming data
- Title(参考訳): comstreamclust: ストリーミングデータのテキストクラスタリングに対する通信型マルチエージェントアプローチ
- Authors: Ali Najafi, Araz Gholipour-Shilabin, Rahim Dehkharghani, Ali
Mohammadpur-Fard, Meysam Asgari-Chenaghlu
- Abstract要約: 本稿では,より広範なトピック内でのサブトピックをクラスタリングするための,ComStreamClustと呼ばれる新しいクラスタリング手法を提案する。
提案手法は並列化可能で,複数のデータポイントを同時に処理できる。
ComStreamClustは、COVID-19とFA CUPの2つのデータセットで評価されている。
- 参考スコア(独自算出の注目度): 1.9949261242626626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Topic detection is the task of determining and tracking hot topics in social
media. Twitter is arguably the most popular platform for people to share their
ideas with others about different issues. One such prevalent issue is the
COVID-19 pandemic. Detecting and tracking topics on these kinds of issues would
help governments and healthcare companies deal with this phenomenon. In this
paper, we propose a novel, multi-agent, communicative clustering approach,
so-called ComStreamClust for clustering sub-topics inside a broader topic,
e.g., COVID-19. The proposed approach is parallelizable, and can simultaneously
handle several data-point. The LaBSE sentence embedding is used to measure the
semantic similarity between two tweets. ComStreamClust has been evaluated on
two datasets: the COVID-19 and the FA CUP. The results obtained from
ComStreamClust approve the effectiveness of the proposed approach when compared
to existing methods.
- Abstract(参考訳): トピック検出はソーシャルメディアにおけるホットトピックの決定と追跡のタスクである。
Twitterはおそらく、人びとが自分のアイデアを他の人たちと共有するための最も人気のあるプラットフォームだ。
新型コロナウイルス(covid-19)のパンデミックもその一つだ。
この種の問題に関するトピックの検出と追跡は、政府や医療企業がこの現象に対処するのに役立つだろう。
本稿では,より広いトピック,例えばcovid-19内でサブトピックをクラスタリングするためのcomstreamclustという,新しいマルチエージェント型,コミュニケーティブクラスタリング手法を提案する。
提案手法は並列化可能で,複数のデータポイントを同時に処理できる。
LaBSE文の埋め込みは、2つのツイート間の意味的類似度を測定するために使用される。
ComStreamClustは、COVID-19とFA CUPの2つのデータセットで評価されている。
ComStreamClustの結果は,既存の手法と比較して提案手法の有効性を認めている。
関連論文リスト
- Towards Scalable Topic Detection on Web via Simulating Levy Walks Nature of Topics in Similarity Space [55.97416108140739]
類似性空間におけるLevi Walk自然をシミュレートすることで,グループトピックに対する新しい,しかし非常に強力なExplore-Exploit(EE)アプローチを提案する。
2つの公開データセットの実験により、我々の手法は、有効性の観点からは最先端の手法に匹敵するだけでなく、効率面では最先端の手法よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2024-07-26T07:19:46Z) - Going beyond research datasets: Novel intent discovery in the industry
setting [60.90117614762879]
本稿では,大規模なeコマースプラットフォームに展開する意図発見パイプラインを改善する手法を提案する。
ドメイン内データに基づく事前学習型言語モデルの利点を示す。
また,クラスタリングタスクの微調整中に,実生活データセットの会話構造(質問と回答)を利用するための最善の方法も考案した。
論文 参考訳(メタデータ) (2023-05-09T14:21:29Z) - Improved Topic modeling in Twitter through Community Pooling [0.0]
Twitterの投稿は短いが、他のテキストよりも一貫性が低いことが多い。
著者が同じコミュニティに属しているツイートをグループ化する,トピックモデリングのための新しいプール方式を提案する。
その結果、我々のコミュニティポーリング手法は、2つの異種データセットの指標の大部分において、他の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-12-20T17:05:32Z) - Twitter-COMMs: Detecting Climate, COVID, and Military Multimodal
Misinformation [83.2079454464572]
本稿では,DARPAセマンティック・フォレスティクス(SemaFor)プログラムにおける画像テキスト不整合検出へのアプローチについて述べる。
Twitter-COMMsは大規模マルチモーダルデータセットで、884万のツイートが気候変動、新型コロナウイルス、軍用車両のトピックに関連する。
我々は、最先端のCLIPモデルに基づいて、自動生成されたランダムとハードのネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガ
論文 参考訳(メタデータ) (2021-12-16T03:37:20Z) - MD-CSDNetwork: Multi-Domain Cross Stitched Network for Deepfake
Detection [80.83725644958633]
現在のディープフェイク生成法では、偽画像やビデオの周波数スペクトルに識別的アーティファクトが残されている。
MD-CSDNetwork(MD-CSDNetwork)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T14:11:53Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - A General Method to Find Highly Coordinating Communities in Social Media
through Inferred Interaction Links [13.264683014487376]
政治的誤報、占い、組織化されたトロリングは、オンラインの悪意ある行動であり、現実世界に重大な影響を及ぼす。
本稿では,アカウントのインタラクションとメタデータのみに依存する新しい時間的ウィンドウ手法を提案する。
さまざまな行動に関わるアカウントのグループを検出し、それを協調して、異なる目標ベースの戦略を実行する。
論文 参考訳(メタデータ) (2021-03-05T00:48:23Z) - Who will accept my request? Predicting response of link initiation in
two-way relation networks [7.547803601922528]
本稿では、双方向ネットワークにおけるリンク開始フィードバックの予測方法である、ソーシャルネットワーク分析とマイニングにおける重要な問題に対処する。
双方向ネットワークにおける2つの個人間の関係には、招待者が受け入れた場合に確立されたリンクとなる1人の個人からのリンク招待が含まれる。
本稿では,この多層的手法によるリンク開始フィードバック予測問題を解く手法を提案する。
論文 参考訳(メタデータ) (2020-12-21T08:14:37Z) - The Influence of Domain-Based Preprocessing on Subject-Specific
Clustering [55.41644538483948]
大学におけるオンライン教育の大部分を突然移行させることで、学者の作業負荷が増大した。
この問題に対処するひとつの方法は、トピックに応じてこれらの質問をクラスタ化することです。
本稿では,タグ付けデータセットの領域を探求し,コードの抜粋の同定と経験的結果の提供に焦点をあてる。
論文 参考訳(メタデータ) (2020-11-16T17:47:19Z) - Covid-Transformer: Detecting COVID-19 Trending Topics on Twitter Using
Universal Sentence Encoder [7.305019142196582]
新型コロナウイルス感染症(COVID-19)がパンデミックを引き起こし、世界200カ国以上に感染した。
新型コロナウイルス(COVID-19)の世界的な影響により、ほぼ至る所で人々の大きな関心事となっている。
われわれは、ツイートを分析し、トレンドトピックやTwitter上の人々の関心事を検出する。
論文 参考訳(メタデータ) (2020-09-08T19:00:38Z) - Topic Detection from Conversational Dialogue Corpus with Parallel
Dirichlet Allocation Model and Elbow Method [1.599072005190786]
並列遅延ディリクレアロケーション(PLDA)モデルを用いたトピック検出手法を提案する。
クラスタ内での一貫性の解釈と検証には,Elbow Method を用いた K-mean クラスタリングを用いる。
実験の結果,PLDAとElbow法を組み合わせることで,最適なクラスタ数を選択し,会話のトピックを洗練できることがわかった。
論文 参考訳(メタデータ) (2020-06-05T10:24:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。