論文の概要: Constrained Non-negative Matrix Factorization for Guided Topic Modeling of Minority Topics
- arxiv url: http://arxiv.org/abs/2505.16493v1
- Date: Thu, 22 May 2025 10:25:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.223576
- Title: Constrained Non-negative Matrix Factorization for Guided Topic Modeling of Minority Topics
- Title(参考訳): マイノリティトピックのガイド付きトピックモデリングのための制約付き非負行列因子化
- Authors: Seyedeh Fatemeh Ebrahimi, Jaakko Peltonen,
- Abstract要約: 特別に制約されたNMFによるトピックモデリングソリューションを提案する。
私たちは、データ駆動の少数派トピックと多数派トピックを学びます。
我々は、YouTubeのvlogコメントに関するケーススタディを行い、メンタルヘルスコンテンツに関する視聴者の議論を分析した。
- 参考スコア(独自算出の注目度): 6.05426481427847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Topic models often fail to capture low-prevalence, domain-critical themes, so-called minority topics, such as mental health themes in online comments. While some existing methods can incorporate domain knowledge, such as expected topical content, methods allowing guidance may require overly detailed expected topics, hindering the discovery of topic divisions and variation. We propose a topic modeling solution via a specially constrained NMF. We incorporate a seed word list characterizing minority content of interest, but we do not require experts to pre-specify their division across minority topics. Through prevalence constraints on minority topics and seed word content across topics, we learn distinct data-driven minority topics as well as majority topics. The constrained NMF is fitted via Karush-Kuhn-Tucker (KKT) conditions with multiplicative updates. We outperform several baselines on synthetic data in terms of topic purity, normalized mutual information, and also evaluate topic quality using Jensen-Shannon divergence (JSD). We conduct a case study on YouTube vlog comments, analyzing viewer discussion of mental health content; our model successfully identifies and reveals this domain-relevant minority content.
- Abstract(参考訳): トピックモデルは、しばしば、低頻度でドメインクリティカルなテーマ、いわゆる少数派トピック、例えばオンラインコメントにおけるメンタルヘルスのテーマを捉えない。
既存のメソッドでは、期待されるトピックの内容のようなドメインの知識を組み込むことができるが、ガイダンスを提供するメソッドは、過剰に詳細なトピックを必要とする可能性があるため、トピックの分割やバリエーションの発見を妨げる。
特別に制約されたNMFによるトピックモデリングソリューションを提案する。
関心のマイノリティを特徴付けるシードワードリストを組み込むが、専門家がマイノリティトピックにまたがってその分類を事前に特定する必要はない。
マイノリティトピックの頻度制約とトピック間のシードワードコンテンツを通じて、データ駆動のマイノリティトピックと多数トピックを学習する。
制約付きNMFはKKT(Karush-Kuhn-Tucker)条件を介して乗算更新される。
我々は,トピックの純度,正規化相互情報,およびジェンセン・シャノン分散(JSD)を用いたトピック品質の評価において,合成データに基づくいくつかのベースラインを達成している。
我々は、YouTubeのvlogコメントに関するケーススタディを行い、メンタルヘルスコンテンツに関する視聴者の議論を分析し、このドメイン関連マイノリティコンテンツを特定し、明らかにした。
関連論文リスト
- Generalized Semantic Contrastive Learning via Embedding Side Information for Few-Shot Object Detection [52.490375806093745]
マイクロショットオブジェクト検出(FSOD)の目的は、少数のトレーニングサンプルで新しいオブジェクトを検出することである。
本稿では,特徴空間とサンプル視点から得られる負の影響を緩和する側面情報を紹介する。
我々のモデルは従来の最先端手法よりも優れており、ほとんどのショット/スプリットにおけるFSODの能力は大幅に向上している。
論文 参考訳(メタデータ) (2025-04-09T17:24:05Z) - Enhancing Topic Interpretability for Neural Topic Modeling through Topic-wise Contrastive Learning [23.816433328623397]
トピックの正規化を含まない可能性の過剰強調は、トピックモデリングの過剰な拡張潜在空間につながる可能性がある。
本稿では,トピック解釈可能性の複数の面を評価可能な微分正則化器を統合した新しいNTMフレームワークContraTopicを提案する。
我々のアプローチは、最先端のNTMと比較して、優れた解釈可能性を持つトピックを一貫して生成する。
論文 参考訳(メタデータ) (2024-12-23T07:07:06Z) - Towards Probing Speech-Specific Risks in Large Multimodal Models: A Taxonomy, Benchmark, and Insights [50.89022445197919]
本研究は,8つのリスクカテゴリーを敵意(悪意的皮肉と脅し),悪意的模倣(年齢,性別,民族),ステレオタイプ的バイアス(年齢,性別,民族)を対象とする音声特異的リスク分類法を提案する。
分類に基づいて,これらのリスクのカテゴリを検出するために,現在のLMM能力を評価するための小規模データセットを作成する。
論文 参考訳(メタデータ) (2024-06-25T10:08:45Z) - Qsnail: A Questionnaire Dataset for Sequential Question Generation [76.616068047362]
質問紙作成作業に特化して構築された最初のデータセットについて述べる。
我々はQsnailの実験を行い、その結果、検索モデルと従来の生成モデルが与えられた研究トピックや意図と完全に一致していないことが明らかとなった。
チェーン・オブ・シークレット・プロンプトと微調整による改善にもかかわらず、言語モデルによるアンケートは、人間の手書きのアンケートには及ばない。
論文 参考訳(メタデータ) (2024-02-22T04:14:10Z) - Effective Neural Topic Modeling with Embedding Clustering Regularization [21.692088899479934]
新しいニューラルトピックモデルであるクラスタリング規則化トピックモデル(ECRTM)を提案する。
ECRTMは各トピックの埋め込みを、セマンティック空間内の個別に集約されたワード埋め込みクラスタの中心に強制する。
我々のECRTMは文書の質の高いトピック分布とともに多様で一貫性のあるトピックを生成する。
論文 参考訳(メタデータ) (2023-06-07T07:45:38Z) - NeuS: Neutral Multi-News Summarization for Mitigating Framing Bias [54.89737992911079]
様々な政治スペクトルの複数のニュース見出しから中立的な要約を生成する新しい課題を提案する。
最も興味深い観察の1つは、生成モデルは、事実的に不正確なコンテンツや検証不可能なコンテンツだけでなく、政治的に偏ったコンテンツにも幻覚を与えることができることである。
論文 参考訳(メタデータ) (2022-04-11T07:06:01Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - ConvoSumm: Conversation Summarization Benchmark and Improved Abstractive
Summarization with Argument Mining [61.82562838486632]
我々は、さまざまなオンライン会話形式のニュースコメント、ディスカッションフォーラム、コミュニティ質問応答フォーラム、電子メールスレッドに関する4つの新しいデータセットをクラウドソースする。
我々は、データセットの最先端モデルをベンチマークし、データに関連する特徴を分析します。
論文 参考訳(メタデータ) (2021-06-01T22:17:13Z) - A Disentangled Adversarial Neural Topic Model for Separating Opinions
from Plots in User Reviews [35.802290746473524]
本稿では,ニューラルトピックモデルと敵対的トレーニングを組み合わせることで,プロットと中立的トピックから意見トピックを分離する手法を提案する。
本研究は,新たな映画・書評の収集とプロットの併用による評価を実験的に実施する。
改善されたコヒーレンスと多種多様なトピック、一貫した絡み合い率、および他の教師付きトピックモデルよりも優れた感情分類性能を示す。
論文 参考訳(メタデータ) (2020-10-22T02:15:13Z) - Context Reinforced Neural Topic Modeling over Short Texts [15.487822291146689]
文脈強化ニューラルトピックモデル(CRNTM)を提案する。
CRNTMは各単語のトピックを狭い範囲で推測し、各短いテキストがわずかにまとまったトピックだけをカバーしていると仮定する。
2つのベンチマークデータセットの実験は、トピック発見とテキスト分類の両方において提案モデルの有効性を検証する。
論文 参考訳(メタデータ) (2020-08-11T06:41:53Z) - Keyword Assisted Topic Models [0.0]
少数のキーワードを提供することで,話題モデルの計測性能を大幅に向上させることができることを示す。
KeyATMは、より解釈可能な結果を提供し、文書分類性能が向上し、標準トピックモデルよりもトピックの数に敏感でない。
論文 参考訳(メタデータ) (2020-04-13T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。