論文の概要: A comprehensive study on Frequent Pattern Mining and Clustering categories for topic detection in Persian text stream
- arxiv url: http://arxiv.org/abs/2403.10237v1
- Date: Fri, 15 Mar 2024 12:08:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 17:20:54.841109
- Title: A comprehensive study on Frequent Pattern Mining and Clustering categories for topic detection in Persian text stream
- Title(参考訳): ペルシャ語テキストストリームにおけるトピック検出のための周波数パターンマイニングとクラスタリングのカテゴリに関する総合的研究
- Authors: Elnaz Zafarani-Moattar, Mohammad Reza Kangavari, Amir Masoud Rahmani,
- Abstract要約: 本研究の目的は,トピック検出のための最適なアルゴリズムについて広範な研究を行うことである。
ペルシアのソーシャルネットワーク投稿のテキストがデータセットとして使用される。
以上の結果から,人間が容易に理解できるキーワードトピックを探索する場合には,ハイブリッドカテゴリーの方が優れていることが示唆された。
- 参考スコア(独自算出の注目度): 6.446062819763263
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Topic detection is a complex process and depends on language because it somehow needs to analyze text. There have been few studies on topic detection in Persian, and the existing algorithms are not remarkable. Therefore, we aimed to study topic detection in Persian. The objectives of this study are: 1) to conduct an extensive study on the best algorithms for topic detection, 2) to identify necessary adaptations to make these algorithms suitable for the Persian language, and 3) to evaluate their performance on Persian social network texts. To achieve these objectives, we have formulated two research questions: First, considering the lack of research in Persian, what modifications should be made to existing frameworks, especially those developed in English, to make them compatible with Persian? Second, how do these algorithms perform, and which one is superior? There are various topic detection methods that can be categorized into different categories. Frequent pattern and clustering are selected for this research, and a hybrid of both is proposed as a new category. Then, ten methods from these three categories are selected. All of them are re-implemented from scratch, changed, and adapted with Persian. These ten methods encompass different types of topic detection methods and have shown good performance in English. The text of Persian social network posts is used as the dataset. Additionally, a new multiclass evaluation criterion, called FS, is used in this paper for the first time in the field of topic detection. Approximately 1.4 billion tokens are processed during experiments. The results indicate that if we are searching for keyword-topics that are easily understandable by humans, the hybrid category is better. However, if the aim is to cluster posts for further analysis, the frequent pattern category is more suitable.
- Abstract(参考訳): トピック検出は複雑なプロセスであり、何らかの理由でテキストを分析する必要があるため、言語に依存する。
ペルシャ語におけるトピック検出の研究はほとんどなく、既存のアルゴリズムは目立ってはいない。
そこで,ペルシャ語における話題の検出について検討した。
本研究の目的は次のとおりである。
1)話題検出のための最良のアルゴリズムについて広範な研究を行う。
2)これらのアルゴリズムをペルシア語に適合させるために必要な適応を識別し、
3)ペルシャのソーシャル・ネットワーク・テキスト上でのパフォーマンスを評価する。
第一に、ペルシア語における研究の欠如を考えると、既存のフレームワーク、特に英語で開発されたフレームワークに、ペルシア語と互換性を持たせるためにどんな修正を加えるべきか?
第2に、これらのアルゴリズムはどのように機能し、どちらが優れているか?
様々なカテゴリに分類できるトピック検出方法がある。
本研究では, 頻繁なパターンとクラスタリングが選択され, 両者のハイブリッドが新たなカテゴリとして提案されている。
そして、これら3つのカテゴリから10の方法が選択される。
これらはすべてスクラッチから再実装され、変更され、ペルシア語で適応される。
これらの10種類の手法は、異なる種類のトピック検出方法を含み、英語で優れた性能を示している。
ペルシアのソーシャルネットワーク投稿のテキストがデータセットとして使用される。
また,トピック検出の分野では,FSと呼ばれる新しいマルチクラス評価基準が初めて用いられる。
約140億個のトークンが実験中に処理される。
以上の結果から,人間が容易に理解できるキーワードトピックを探索する場合には,ハイブリッドカテゴリーの方が優れていることが示唆された。
しかし、さらなる分析のためにポストをクラスタ化することが目的ならば、頻繁なパターンカテゴリの方がより適している。
関連論文リスト
- Regularization-Based Methods for Ordinal Quantification [49.606912965922504]
順序の場合、すなわち n>2 クラスの集合上で全順序が定義される場合について研究する。
本稿では,従来のアルゴリズムよりも優れた正規化OQアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-13T16:04:06Z) - Tuning Traditional Language Processing Approaches for Pashto Text
Classification [0.0]
本研究の目的は,Pashto自動テキスト分類システムの構築である。
本研究は、統計的およびニューラルネットワーク機械学習技術の両方を含む複数のモデルを比較する。
本研究では,分類アルゴリズムとTFIDF特徴抽出法を用いて,平均試験精度94%を得た。
論文 参考訳(メタデータ) (2023-05-04T22:57:45Z) - A Gold Standard Dataset for the Reviewer Assignment Problem [117.59690218507565]
類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。
私たちのデータセットは、58人の研究者による477の自己申告された専門知識スコアで構成されています。
2つの論文をレビュアーに関連付けるタスクは、簡単なケースでは12%~30%、ハードケースでは36%~43%である。
論文 参考訳(メタデータ) (2023-03-23T16:15:03Z) - Persian topic detection based on Human Word association and graph
embedding [3.8137985834223507]
本稿では,Human Word Associationに基づくソーシャルメディアのトピック検出フレームワークを提案する。
この地域での作業のほとんどは英語で行われているが、ペルシア語で行われている。
論文 参考訳(メタデータ) (2023-02-20T05:46:47Z) - Toward the Understanding of Deep Text Matching Models for Information
Retrieval [72.72380690535766]
本稿では,既存の深層テキストマッチング手法が情報検索の基本的な勾配を満たすかどうかを検証することを目的とする。
具体的には, 項周波数制約, 項識別制約, 長さ正規化制約, TF長制約の4つの属性を用いる。
LETOR 4.0 と MS Marco の実験結果から,研究対象の深層テキストマッチング手法はすべて,統計学において高い確率で上記の制約を満たすことが示された。
論文 参考訳(メタデータ) (2021-08-16T13:33:15Z) - The Challenges of Persian User-generated Textual Content: A Machine
Learning-Based Approach [0.0]
この研究は、ペルシャのユーザー生成テキストコンテンツがもたらすハードルに対処するために機械学習ベースのアプローチを適用します。
提示されたアプローチは、ペルシア語の感情分析を行うために機械翻訳データセットを使用する。
実験の結果は、これまでの試みとは対照的に、有望な最先端のパフォーマンスを示しています。
論文 参考訳(メタデータ) (2021-01-20T11:57:59Z) - Be More with Less: Hypergraph Attention Networks for Inductive Text
Classification [56.98218530073927]
グラフニューラルネットワーク(GNN)は、研究コミュニティで注目され、この標準タスクで有望な結果を実証している。
成功にもかかわらず、それらのパフォーマンスは、単語間の高次相互作用をキャプチャできないため、実際は大部分が危険に晒される可能性がある。
本稿では,テキスト表現学習において,少ない計算量でより表現力の高いハイパーグラフアテンションネットワーク(HyperGAT)を提案する。
論文 参考訳(メタデータ) (2020-11-01T00:21:59Z) - Polysemy Deciphering Network for Robust Human-Object Interaction
Detection [86.97181280842098]
本稿では,HOI検出のための動詞の視覚的ポリセミーを復号する新しいポリセミー・デセプティング・ネットワーク(PD-Net)を提案する。
2つの新しいモジュールを用いてHOI検出機能をポリセミヤウェアに洗練する。
第2に, PD-Net に先立ってより重要と思われる特徴型に基づいて決定を下すための, 新たなpolysemy-Aware Modal Fusion モジュール (PAMF) を導入する。
論文 参考訳(メタデータ) (2020-08-07T00:49:27Z) - A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。
本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。
特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文 参考訳(メタデータ) (2020-08-02T00:09:03Z) - A novel approach to sentiment analysis in Persian using discourse and
external semantic information [0.0]
自然言語で書かれた文書から個人の感情を抽出するための多くのアプローチが提案されている。
これらのアプローチの大半は英語に重点を置いているが、ペルシア語のような資源中心の言語は研究作業や言語資源の欠如に悩まされている。
ペルシア語におけるこのギャップのため、現在の研究はペルシア語に適用される感情分析の新しい手法を導入することを目的としている。
論文 参考訳(メタデータ) (2020-07-18T18:40:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。