論文の概要: BERTopic for Topic Modeling of Hindi Short Texts: A Comparative Study
- arxiv url: http://arxiv.org/abs/2501.03843v1
- Date: Tue, 07 Jan 2025 14:53:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:50:50.481765
- Title: BERTopic for Topic Modeling of Hindi Short Texts: A Comparative Study
- Title(参考訳): ヒンディー語短文のトピックモデリングのためのBER Topic : 比較研究
- Authors: Atharva Mutsaddi, Anvi Jamkhande, Aryan Thakre, Yashodhara Haribhakta,
- Abstract要約: 本研究では,ヒンディー語短文のモデル化におけるBERTopicの性能について検討する。
コンテキスト埋め込みを使用することで、BERTopicはデータのセマンティックな関係をキャプチャし、従来のモデルよりも効果的になる可能性がある。
- 参考スコア(独自算出の注目度): 1.1650821883155187
- License:
- Abstract: As short text data in native languages like Hindi increasingly appear in modern media, robust methods for topic modeling on such data have gained importance. This study investigates the performance of BERTopic in modeling Hindi short texts, an area that has been under-explored in existing research. Using contextual embeddings, BERTopic can capture semantic relationships in data, making it potentially more effective than traditional models, especially for short and diverse texts. We evaluate BERTopic using 6 different document embedding models and compare its performance against 8 established topic modeling techniques, such as Latent Dirichlet Allocation (LDA), Non-negative Matrix Factorization (NMF), Latent Semantic Indexing (LSI), Additive Regularization of Topic Models (ARTM), Probabilistic Latent Semantic Analysis (PLSA), Embedded Topic Model (ETM), Combined Topic Model (CTM), and Top2Vec. The models are assessed using coherence scores across a range of topic counts. Our results reveal that BERTopic consistently outperforms other models in capturing coherent topics from short Hindi texts.
- Abstract(参考訳): ヒンディー語のような母国語の短いテキストデータが現代メディアにますます現れるにつれて、そのようなデータに基づくトピックモデリングのための堅牢な手法の重要性が高まっている。
本研究では,Hindi短文モデリングにおけるBERTopicの性能について検討した。
コンテキスト埋め込みを使用することで、BERTopicはデータのセマンティックな関係をキャプチャし、特に短く多様なテキストに対して、従来のモデルよりも効果的になる可能性がある。
6種類の文書埋め込みモデルを用いてBERTopicを評価し、その性能をLDA(Latent Dirichlet Allocation)、NMF(Non- negative Matrix Factorization)、LSI(Latent Semantic Indexing)、ARTM(Additive Regularization of Topic Models)、PLSA(Probabilistic Latent Semantic Analysis)、ETM(Embed Topic Model)、CTM(Combined Topic Model)、Top2Vec(Top2Vec)といった8つのトピックモデリング手法と比較した。
モデルは、さまざまなトピックカウントのコヒーレンススコアを用いて評価される。
以上の結果から,BERTopicはヒンディー語の短いテキストからコヒーレントなトピックを抽出する上で,他のモデルよりも一貫して優れていることがわかった。
関連論文リスト
- Enhancing Short-Text Topic Modeling with LLM-Driven Context Expansion and Prefix-Tuned VAEs [25.915607750636333]
本稿では,大規模言語モデル(LLM)を利用して,トピックモデリングを適用する前に,短いテキストをより詳細なシーケンスに拡張する手法を提案する。
提案手法は,データ空間が極端である実世界のデータセットに対する広範な実験により,短文のトピックモデリング性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-10-04T01:28:56Z) - Explaining Datasets in Words: Statistical Models with Natural Language Parameters [66.69456696878842]
本稿では, クラスタリング, 時系列, 分類モデルなど, 自然言語の述語によってパラメータ化される統計モデル群を紹介する。
当社のフレームワークは、ユーザチャット対話の分類、時間の経過とともにどのように進化するかの特徴付け、一方の言語モデルが他方よりも優れているカテゴリを見つけることなど、幅広い問題に適用しています。
論文 参考訳(メタデータ) (2024-09-13T01:40:20Z) - Unveiling the Potential of BERTopic for Multilingual Fake News Analysis -- Use Case: Covid-19 [0.562479170374811]
BERTopicは文の埋め込み、次元の縮小、クラスタリング、トピック抽出で構成されている。
本稿では,BERTopicの技術応用を実際に分析することを目的とする。
また、実世界のデータに対するトピックモデリングの結果をユースケースとして分析することを目的とする。
論文 参考訳(メタデータ) (2024-07-11T11:47:43Z) - Detection and Measurement of Syntactic Templates in Generated Text [58.111650675717414]
モデルにおける一般的な反復を特徴付けるための構文的特徴の解析を行う。
モデルでは、下流のタスクにおいて、人間の参照テキストよりも高いレートでテンプレートテキストを生成する傾向にある。
論文 参考訳(メタデータ) (2024-06-28T19:34:23Z) - GINopic: Topic Modeling with Graph Isomorphism Network [0.8962460460173959]
本稿では,グラフ同型ネットワークに基づく話題モデリングフレームワークGINopicを紹介し,単語間の相関関係を捉える。
本稿では,既存のトピックモデルと比較してGINopicの有効性を実証し,トピックモデリングの進歩の可能性を明らかにする。
論文 参考訳(メタデータ) (2024-04-02T17:18:48Z) - Explore In-Context Segmentation via Latent Diffusion Models [132.26274147026854]
潜在拡散モデル(LDM)は、文脈内セグメンテーションに有効な最小限のモデルである。
画像とビデオの両方のデータセットを含む、新しい、公正なコンテキスト内セグメンテーションベンチマークを構築します。
論文 参考訳(メタデータ) (2024-03-14T17:52:31Z) - Let the Pretrained Language Models "Imagine" for Short Texts Topic
Modeling [29.87929724277381]
短いテキストでは、共起情報は最小限であり、結果として文書表現の特徴が分散する。
既存のトピックモデル(確率的あるいは神経的)は、ほとんどの場合、一貫性のあるトピックを生成するためにパターンのマイニングに失敗します。
既存の事前学習言語モデル(PLM)を用いて、短いテキストを長いシーケンスに拡張する。
論文 参考訳(メタデータ) (2023-10-24T00:23:30Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Mitigating Data Sparsity for Short Text Topic Modeling by Topic-Semantic
Contrastive Learning [19.7066703371736]
トピック・セマンティック・コントラスト・トピック・モデル(TSCTM)を提案する。
我々のTSCTMは、データ拡張の可用性に関わらず最先端のベースラインを上回り、高品質なトピックやトピックの分布を生成します。
論文 参考訳(メタデータ) (2022-11-23T11:33:43Z) - Topic Adaptation and Prototype Encoding for Few-Shot Visual Storytelling [81.33107307509718]
トピック間一般化の能力をモデル化するためのトピック適応型ストーリーテラを提案する。
また,アトピー内導出能力のモデル化を目的とした符号化手法の試作も提案する。
実験結果から,トピック適応とプロトタイプ符号化構造が相互に利益をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2020-08-11T03:55:11Z) - How Far are We from Effective Context Modeling? An Exploratory Study on
Semantic Parsing in Context [59.13515950353125]
文法に基づく意味解析を行い,その上に典型的な文脈モデリング手法を適用する。
我々は,2つの大きなクロスドメインデータセットに対して,13のコンテキストモデリング手法を評価した。
論文 参考訳(メタデータ) (2020-02-03T11:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。