論文の概要: Semiparametric Latent Topic Modeling on Consumer-Generated Corpora
- arxiv url: http://arxiv.org/abs/2107.10651v1
- Date: Tue, 13 Jul 2021 00:22:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-25 12:00:20.499396
- Title: Semiparametric Latent Topic Modeling on Consumer-Generated Corpora
- Title(参考訳): 消費者生成コーパスにおける半パラメトリック潜在トピックモデリング
- Authors: Dominic B. Dayta and Erniel B. Barrios
- Abstract要約: 本稿では,非負行列因数分解と半パラメトリック回帰を利用したトピックモデリングにおける2段階のアプローチである,半パラメトリックトピックモデルを提案する。
このモデルにより、コーパス内のスパーストピック構造を再構築することができ、コーパスに入る新しい文書のトピックを予測するための生成モデルを提供する。
実際の消費者フィードバックコーパスでは、モデルは、他のメソッドが生成したものに匹敵する解釈可能で有用なトピック定義を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Legacy procedures for topic modelling have generally suffered problems of
overfitting and a weakness towards reconstructing sparse topic structures. With
motivation from a consumer-generated corpora, this paper proposes
semiparametric topic model, a two-step approach utilizing nonnegative matrix
factorization and semiparametric regression in topic modeling. The model
enables the reconstruction of sparse topic structures in the corpus and
provides a generative model for predicting topics in new documents entering the
corpus. Assuming the presence of auxiliary information related to the topics,
this approach exhibits better performance in discovering underlying topic
structures in cases where the corpora are small and limited in vocabulary. In
an actual consumer feedback corpus, the model also demonstrably provides
interpretable and useful topic definitions comparable with those produced by
other methods.
- Abstract(参考訳): トピックモデリングのレガシな手順は、一般的にオーバーフィッティングの問題や、スパースなトピック構造を再構築する上での弱点に苦しんでいる。
本稿では, 一般消費者が生成するコーパスからモチベーションを得て, 非負行列因数分解と半パラメトリック回帰を利用したトピックモデルを提案する。
このモデルにより、コーパス内のスパーストピック構造を再構築し、コーパスに入る新しい文書のトピックを予測する生成モデルを提供する。
トピックに関連する補助情報の存在を仮定すると、コーパスが小さく語彙が限られている場合のトピック構造の発見において、より優れた性能を示す。
実際の消費者フィードバックコーパスでは、モデルは他の手法で生成されたものと同等の、解釈可能で有用なトピック定義を提供する。
関連論文リスト
- SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Interactive Topic Models with Optimal Transport [75.26555710661908]
ラベル名監視型トピックモデリングのためのアプローチとして,EdTMを提案する。
EdTMは、LM/LLMベースのドキュメントトピック親和性を活用しながら、代入問題としてのトピックモデリングをモデル化する。
論文 参考訳(メタデータ) (2024-06-28T13:57:27Z) - The Geometric Structure of Topic Models [0.0]
研究や応用に広く利用されているにもかかわらず、トピックモデルの詳細な分析は依然としてオープンな研究トピックである。
平坦なトピックモデルから順序構造を導出する入射幾何学的手法を提案する。
規則的モチーフに基づく概念階層のための新しい可視化パラダイムを提案する。
論文 参考訳(メタデータ) (2024-03-06T10:53:51Z) - Let the Pretrained Language Models "Imagine" for Short Texts Topic
Modeling [29.87929724277381]
短いテキストでは、共起情報は最小限であり、結果として文書表現の特徴が分散する。
既存のトピックモデル(確率的あるいは神経的)は、ほとんどの場合、一貫性のあるトピックを生成するためにパターンのマイニングに失敗します。
既存の事前学習言語モデル(PLM)を用いて、短いテキストを長いシーケンスに拡張する。
論文 参考訳(メタデータ) (2023-10-24T00:23:30Z) - TopicAdapt- An Inter-Corpora Topics Adaptation Approach [27.450275637652418]
本稿では、関連するソースコーパスから関連するトピックを適応し、ソースコーパスに存在しないターゲットコーパスに新しいトピックを発見できるトピックモデルTopicAdaptを提案する。
多様なドメインからの複数のデータセットに対する実験は、最先端のトピックモデルに対して提案されたモデルの優位性を示している。
論文 参考訳(メタデータ) (2023-10-08T02:56:44Z) - A modified model for topic detection from a corpus and a new metric
evaluating the understandability of topics [0.0]
新しいモデルは、ドキュメントクラスタリングなどのいくつかの変更を取り入れた組み込みトピックモデルの上に構築されている。
数値実験により、新しいモデルは文書の長さに関わらず好適に機能することが示唆された。
新しいメトリクスは、トピックコヒーレンスのような広く使われているメトリクスよりも効率的に計算でき、検出されたトピックの理解可能性に関する可変情報を提供する。
論文 参考訳(メタデータ) (2023-06-08T05:17:03Z) - Are Neural Topic Models Broken? [81.15470302729638]
トピックモデルの自動評価と人的評価の関係について検討する。
ニューラルトピックモデルは、確立された古典的手法と比較して、両方の点においてより悪くなる。
論文 参考訳(メタデータ) (2022-10-28T14:38:50Z) - Model Criticism for Long-Form Text Generation [113.13900836015122]
我々は,テキストの高レベル構造を評価するために,潜在空間におけるモデル批判という統計ツールを適用した。
我々は,コヒーレンス,コア,トピックスという,ハイレベルな談話の3つの代表的な側面について実験を行った。
トランスフォーマーベースの言語モデルでは、トピック構造をキャプチャできるが、構造コヒーレンスやモデリングコアスを維持するのが難しくなる。
論文 参考訳(メタデータ) (2022-10-16T04:35:58Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Improving Neural Topic Models using Knowledge Distillation [84.66983329587073]
我々は,確率論的トピックモデルと事前学習されたトランスフォーマーの最適属性を組み合わせるために,知識蒸留を用いる。
我々のモジュラー手法は、どのニューラルトピックモデルでも簡単に適用でき、トピックの品質を向上させることができる。
論文 参考訳(メタデータ) (2020-10-05T22:49:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。