論文の概要: GHTM: A Graph based Hybrid Topic Modeling Approach in Low-Resource Bengali Language
- arxiv url: http://arxiv.org/abs/2508.00605v1
- Date: Fri, 01 Aug 2025 13:08:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.888764
- Title: GHTM: A Graph based Hybrid Topic Modeling Approach in Low-Resource Bengali Language
- Title(参考訳): GHTM:低リソースベンガル言語におけるグラフに基づくハイブリッドトピックモデリングアプローチ
- Authors: Farhana Haque, Md. Abdur Rahman, Sumon Ahmed,
- Abstract要約: GHTM(Graph-based Hybrid Topic Model)と呼ばれる新しいグラフ畳み込みネットワーク(GCN)モデルを提案する。
提案モデルでは,文書の入力ベクトルをグラフ内のノードとして表現し,GCNが意味的にリッチな埋め込みを生成する。
実験結果は,トピックコヒーレンスと多様性において,他のモデルよりも優れた性能を示すことによって,提案モデルの有効性を示す。
- 参考スコア(独自算出の注目度): 1.3791394805787949
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Topic modeling is a Natural Language Processing (NLP) technique that is used to identify latent themes and extract topics from text corpora by grouping similar documents based on their most significant keywords. Although widely researched in English, topic modeling remains understudied in Bengali due to its morphological complexity, lack of adequate resources and initiatives. In this contribution, a novel Graph Convolutional Network (GCN) based model called GHTM (Graph-Based Hybrid Topic Model) is proposed. This model represents input vectors of documents as nodes in the graph, which GCN uses to produce semantically rich embeddings. The embeddings are then decomposed using Non-negative Matrix Factorization (NMF) to get the topical representations of the underlying themes of the text corpus. This study compares the proposed model against a wide range of Bengali topic modeling techniques, from traditional methods such as LDA, LSA, and NMF to contemporary frameworks such as BERTopic and Top2Vec on three Bengali datasets. The experimental results demonstrate the effectiveness of the proposed model by outperforming other models in topic coherence and diversity. In addition, we introduce a novel Bengali dataset called "NCTBText" sourced from Bengali textbook materials to enrich and diversify the predominantly newspaper-centric Bengali corpora.
- Abstract(参考訳): トピックモデリング(英: Topic Modeling)は、自然言語処理(NLP)技術で、テキストコーパスから、最も重要なキーワードに基づいて類似した文書をグループ化することで、潜在テーマを特定し、トピックを抽出する。
英語では広く研究されているが、ベンガルでは、その形態的複雑さ、十分な資源やイニシアチブの欠如により、トピックモデリングが研究されている。
本稿では,GHTM(Graph-Based Hybrid Topic Model)と呼ばれる新しいグラフ畳み込みネットワーク(GCN)モデルを提案する。
このモデルは文書の入力ベクトルをグラフのノードとして表現し、GCNは意味的にリッチな埋め込みを生成する。
埋め込みは非負行列因子分解(NMF)を用いて分解され、テキストコーパスの基本テーマのトピック表現を得る。
本研究は,LDA,LSA,NMFといった従来の手法から,3つのベンガルデータセット上のBERTopicやTop2Vecといった現代のフレームワークまで,ベンガルのトピックモデリング技術と比較した。
実験結果は,トピックコヒーレンスと多様性において,他のモデルよりも優れた性能を示すことによって,提案モデルの有効性を示す。
さらに,新聞中心のベンガルコーパスを充実・多様化させるため,ベンガルの教科書資料から得られた「NCTBText」という新たなベンガルデータセットを導入する。
関連論文リスト
- HAMLET: Healthcare-focused Adaptive Multilingual Learning Embedding-based Topic Modeling [4.8342038441006805]
本稿では,言語間医療トピックモデリングのためのグラフ駆動アーキテクチャであるHAMLETを紹介する。
提案手法では,ニューラルエンハンスド・セマンティック・フュージョンを用いて,大規模言語モデルによって生成されたトピックの埋め込みを改良する。
実験は2つの医療データセットを用いて行われ、1つは英語、1つはフランス語で、そこから6つのデータセットが抽出された。
論文 参考訳(メタデータ) (2025-05-12T00:31:36Z) - BERTopic for Topic Modeling of Hindi Short Texts: A Comparative Study [1.1650821883155187]
本研究では,ヒンディー語短文のモデル化におけるBERTopicの性能について検討する。
コンテキスト埋め込みを使用することで、BERTopicはデータのセマンティックな関係をキャプチャし、従来のモデルよりも効果的になる可能性がある。
論文 参考訳(メタデータ) (2025-01-07T14:53:35Z) - Distilling Vision-Language Foundation Models: A Data-Free Approach via Prompt Diversification [49.41632476658246]
我々は、数十億レベルの画像テキストデータセットにアクセスすることなく、DFKDをVision-Language Foundation Modelsに拡張することについて議論する。
目的は,配当に依存しないダウンストリームタスクに対して,与えられたカテゴリ概念を学生モデルにカスタマイズすることである。
本稿では,多様なスタイルで画像合成を促進するために,3つの新しいプロンプト分岐法を提案する。
論文 参考訳(メタデータ) (2024-07-21T13:26:30Z) - GINopic: Topic Modeling with Graph Isomorphism Network [0.8962460460173959]
本稿では,グラフ同型ネットワークに基づく話題モデリングフレームワークGINopicを紹介し,単語間の相関関係を捉える。
本稿では,既存のトピックモデルと比較してGINopicの有効性を実証し,トピックモデリングの進歩の可能性を明らかにする。
論文 参考訳(メタデータ) (2024-04-02T17:18:48Z) - TopicGPT: A Prompt-based Topic Modeling Framework [77.72072691307811]
TopicGPTは,大規模言語モデルを用いてテキストコレクション内の潜在トピックを明らかにするプロンプトベースのフレームワークである。
競合する手法と比較して、人間の分類とよく一致したトピックを生成する。
そのトピックもまた解釈可能であり、自然言語ラベルと関連する自由形式の記述を含むトピックを好んで、曖昧な言葉の袋を除いた。
論文 参考訳(メタデータ) (2023-11-02T17:57:10Z) - Graph Foundation Models: Concepts, Opportunities and Challenges [66.37994863159861]
ファンデーションモデルは、さまざまな人工知能アプリケーションにおいて重要なコンポーネントとして現れてきた。
一般化と適応における基礎モデルの能力は、グラフ機械学習研究者を動機付け、新しいグラフ学習パラダイムを開発する可能性について議論する。
本稿では,グラフ基礎モデル(GFM)の概念を紹介し,その重要な特徴と基礎技術について概説する。
論文 参考訳(メタデータ) (2023-10-18T09:31:21Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Knowledge-Aware Bayesian Deep Topic Model [50.58975785318575]
本稿では,事前知識を階層型トピックモデリングに組み込むベイズ生成モデルを提案する。
提案モデルでは,事前知識を効率的に統合し,階層的なトピック発見と文書表現の両面を改善する。
論文 参考訳(メタデータ) (2022-09-20T09:16:05Z) - Language Model Evaluation Beyond Perplexity [47.268323020210175]
我々は、言語モデルから生成されたテキストが、訓練された人為的なテキストに存在する統計的傾向を示すかどうかを分析する。
ニューラルネットワークモデルは、考慮された傾向のサブセットのみを学習しているように見えるが、提案された理論分布よりも経験的傾向とより密接に一致している。
論文 参考訳(メタデータ) (2021-05-31T20:13:44Z) - GraphFormers: GNN-nested Transformers for Representation Learning on
Textual Graph [53.70520466556453]
階層的にGNNコンポーネントを言語モデルのトランスフォーマーブロックと一緒にネストするGraphFormerを提案する。
提案したアーキテクチャでは、テキストエンコーディングとグラフ集約を反復的なワークフローに融合する。
さらに、プログレッシブ・ラーニング・ストラテジーを導入し、そのモデルが操作されたデータと元のデータに基づいて連続的に訓練され、グラフ上の情報を統合する能力を強化する。
論文 参考訳(メタデータ) (2021-05-06T12:20:41Z) - Neural Topic Modeling with Cycle-Consistent Adversarial Training [17.47328718035538]
本稿では, 周期整合適応訓練(ToMCAT)によるトピックモデリングとその教師付きバージョン sToMCAT を提案する。
ToMCATは、トピックを解釈するジェネレータネットワークと、ドキュメントトピックを推論するエンコーダネットワークを使用している。
SToMCATはトピックモデリングプロセスにドキュメントラベルを組み込むことでToMCATを拡張し、より一貫性のあるトピックの発見を支援する。
論文 参考訳(メタデータ) (2020-09-29T12:41:27Z) - Topic Adaptation and Prototype Encoding for Few-Shot Visual Storytelling [81.33107307509718]
トピック間一般化の能力をモデル化するためのトピック適応型ストーリーテラを提案する。
また,アトピー内導出能力のモデル化を目的とした符号化手法の試作も提案する。
実験結果から,トピック適応とプロトタイプ符号化構造が相互に利益をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2020-08-11T03:55:11Z) - A Continuous Space Neural Language Model for Bengali Language [0.4799822253865053]
本稿では, 連続空間ニューラル言語モデル, より具体的にはASGD重量減少型LSTM言語モデル, およびベンガル語で効率的に学習する手法を提案する。
提案したアーキテクチャは、ベンガルの保持されたデータセットにおいて、推論の難易度を51.2まで低くすることで、それよりも優れている。
論文 参考訳(メタデータ) (2020-01-11T14:50:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。