論文の概要: GloCOM: A Short Text Neural Topic Model via Global Clustering Context
- arxiv url: http://arxiv.org/abs/2412.00525v2
- Date: Thu, 23 Jan 2025 08:47:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:56:19.681257
- Title: GloCOM: A Short Text Neural Topic Model via Global Clustering Context
- Title(参考訳): GloCOM:グローバルクラスタリングコンテキストによる短文ニューラルトピックモデル
- Authors: Quang Duc Nguyen, Tung Nguyen, Duc Anh Nguyen, Linh Ngo Van, Sang Dinh, Thien Huu Nguyen,
- Abstract要約: GloCOMは、短いドキュメントのためのグローバルクラスタリングコンテキストを構築するための新しいモデルである。
クラスタリングコンテキストのグローバルトピック分布と、個々の短文のローカル分布の両方を推論する。
我々のアプローチは、トピックの品質と文書表現の両方において、他の最先端モデルよりも優れています。
- 参考スコア(独自算出の注目度): 29.685615665355396
- License:
- Abstract: Uncovering hidden topics from short texts is challenging for traditional and neural models due to data sparsity, which limits word co-occurrence patterns, and label sparsity, stemming from incomplete reconstruction targets. Although data aggregation offers a potential solution, existing neural topic models often overlook it due to time complexity, poor aggregation quality, and difficulty in inferring topic proportions for individual documents. In this paper, we propose a novel model, GloCOM (Global Clustering COntexts for Topic Models), which addresses these challenges by constructing aggregated global clustering contexts for short documents, leveraging text embeddings from pre-trained language models. GloCOM can infer both global topic distributions for clustering contexts and local distributions for individual short texts. Additionally, the model incorporates these global contexts to augment the reconstruction loss, effectively handling the label sparsity issue. Extensive experiments on short text datasets show that our approach outperforms other state-of-the-art models in both topic quality and document representations.
- Abstract(参考訳): 短いテキストから隠れたトピックを明らかにすることは、単語の共起パターンを制限するデータ重複性や、不完全な再構築ターゲットから生じるラベル重複性によって、従来のモデルやニューラルモデルでは困難である。
データアグリゲーションは潜在的な解決策を提供するが、既存のニューラルトピックモデルは、時間の複雑さ、アグリゲーションの品質の低さ、個々のドキュメントのトピックパーセンテージを推測することの難しさにより、しばしばそれを見落としている。
本稿では,GloCOM(Global Clustering COntexts for Topic Models)という新しいモデルを提案する。
GloCOMは、クラスタリングコンテキストのグローバルなトピック分布と、個々の短文のローカル分布の両方を推論できる。
さらに、このモデルでは、これらのグローバルなコンテキストを組み込んで再構築損失を増大させ、ラベル空間の問題に効果的に対処する。
短いテキストデータセットに対する大規模な実験により、我々のアプローチはトピックの品質と文書表現の両方において、他の最先端モデルよりも優れていることが示された。
関連論文リスト
- Bridging Local Details and Global Context in Text-Attributed Graphs [62.522550655068336]
GraphBridgeは、コンテキストテキスト情報を活用することで、ローカルおよびグローバルな視点をブリッジするフレームワークである。
提案手法は最先端性能を実現し,グラフ対応トークン削減モジュールは効率を大幅に向上し,スケーラビリティの問題を解消する。
論文 参考訳(メタデータ) (2024-06-18T13:35:25Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Let the Pretrained Language Models "Imagine" for Short Texts Topic
Modeling [29.87929724277381]
短いテキストでは、共起情報は最小限であり、結果として文書表現の特徴が分散する。
既存のトピックモデル(確率的あるいは神経的)は、ほとんどの場合、一貫性のあるトピックを生成するためにパターンのマイニングに失敗します。
既存の事前学習言語モデル(PLM)を用いて、短いテキストを長いシーケンスに拡張する。
論文 参考訳(メタデータ) (2023-10-24T00:23:30Z) - Effective Neural Topic Modeling with Embedding Clustering Regularization [21.692088899479934]
新しいニューラルトピックモデルであるクラスタリング規則化トピックモデル(ECRTM)を提案する。
ECRTMは各トピックの埋め込みを、セマンティック空間内の個別に集約されたワード埋め込みクラスタの中心に強制する。
我々のECRTMは文書の質の高いトピック分布とともに多様で一貫性のあるトピックを生成する。
論文 参考訳(メタデータ) (2023-06-07T07:45:38Z) - GRETEL: Graph Contrastive Topic Enhanced Language Model for Long
Document Extractive Summarization [22.053942327552583]
グローバルな意味情報を取得するためのグラフコントラストトピック拡張言語モデル(GRETEL)を提案する。
GRETELは階層型トランスフォーマーエンコーダとグラフコントラスト学習を統合し,グローバル文書コンテキストとゴールド要約から意味情報を融合する。
一般領域およびバイオメディカルデータセットの実験結果から,提案手法がSOTA法より優れていることが示された。
論文 参考訳(メタデータ) (2022-08-21T23:09:29Z) - Enriching and Controlling Global Semantics for Text Summarization [11.037667460077813]
トランスフォーマーに基づくモデルは、流動的で情報的な要約を作成することで抽象的な要約タスクに有効であることが証明されている。
文書のグローバルな意味を捉えるために,正規化フローを付与したニューラルトピックモデルを導入し,それを要約モデルに統合する。
本手法は,5つの共通テキスト要約データセットにおいて,最先端の要約モデルより優れる。
論文 参考訳(メタデータ) (2021-09-22T09:31:50Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Modeling Topical Relevance for Multi-Turn Dialogue Generation [61.87165077442267]
マルチターン対話におけるトピックドリフト問題に対処する新しいモデルSTAR-BTMを提案する。
バイラルトピックモデルは、トレーニングデータセット全体に基づいて事前トレーニングされ、各コンテキストのトピック表現に基づいてトピックレベルの注意重みが計算される。
中国における顧客サービスデータと英語Ubuntuの対話データの両方の実験結果から、STAR-BTMは最先端の手法を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2020-09-27T03:33:22Z) - Context Reinforced Neural Topic Modeling over Short Texts [15.487822291146689]
文脈強化ニューラルトピックモデル(CRNTM)を提案する。
CRNTMは各単語のトピックを狭い範囲で推測し、各短いテキストがわずかにまとまったトピックだけをカバーしていると仮定する。
2つのベンチマークデータセットの実験は、トピック発見とテキスト分類の両方において提案モデルの有効性を検証する。
論文 参考訳(メタデータ) (2020-08-11T06:41:53Z) - Neural Data-to-Text Generation via Jointly Learning the Segmentation and
Correspondence [48.765579605145454]
対象のテキストを断片単位に明示的に分割し,それらのデータ対応と整合させることを提案する。
結果として生じるアーキテクチャは、ニューラルアテンションモデルと同じ表現力を維持している。
E2EとWebNLGのベンチマークでは、提案モデルがニューラルアテンションよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2020-05-03T14:28:28Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。