論文の概要: Seeded Poisson Factorization: Leveraging domain knowledge to fit topic models
- arxiv url: http://arxiv.org/abs/2503.02741v1
- Date: Tue, 04 Mar 2025 16:05:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:21:12.530791
- Title: Seeded Poisson Factorization: Leveraging domain knowledge to fit topic models
- Title(参考訳): シードポアソン因子化: ドメイン知識をトピックモデルに適合させる
- Authors: Bernd Prostmaier, Jan Vávra, Bettina Grün, Paul Hofmarcher,
- Abstract要約: 本稿では,シードワードを通じてドメイン知識を組み込むことにより,Poisson Factorizationフレームワークを拡張した新しいアプローチであるSeeded Poisson Factorization(SPF)を紹介する。
SPFは、トピック固有の項強度の事前分布を変更することで、より解釈可能で構造化されたトピック発見を可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Topic models are widely used for discovering latent thematic structures in large text corpora, yet traditional unsupervised methods often struggle to align with predefined conceptual domains. This paper introduces Seeded Poisson Factorization (SPF), a novel approach that extends the Poisson Factorization framework by incorporating domain knowledge through seed words. SPF enables a more interpretable and structured topic discovery by modifying the prior distribution of topic-specific term intensities, assigning higher initial rates to predefined seed words. The model is estimated using variational inference with stochastic gradient optimization, ensuring scalability to large datasets. We apply SPF to an Amazon customer feedback dataset, leveraging predefined product categories as guiding structures. Our evaluation demonstrates that SPF achieves superior classification performance compared to alternative guided topic models, particularly in terms of computational efficiency and predictive performance. Furthermore, robustness checks highlight SPF's ability to adaptively balance domain knowledge and data-driven topic discovery, even in cases of imperfect seed word selection. These results establish SPF as a powerful and scalable alternative for integrating expert knowledge into topic modeling, enhancing both interpretability and efficiency in real-world applications.
- Abstract(参考訳): トピックモデルは、大きなテキストコーパスで潜在テーマ構造を発見するために広く使われているが、伝統的な教師なしの手法は、事前に定義された概念的領域と整合するのに苦労することが多い。
本稿では,シードワードを通じてドメイン知識を組み込むことにより,Poisson Factorizationフレームワークを拡張した新しいアプローチであるSeeded Poisson Factorization(SPF)を紹介する。
SPFは、トピック固有の項強度の事前分布を変更し、事前定義されたシードワードにより高い初期レートを割り当てることで、より解釈可能で構造化されたトピック発見を可能にする。
モデルは確率的勾配最適化による変分推論を用いて推定され、大規模データセットへのスケーラビリティを確保する。
SPFをAmazonの顧客フィードバックデータセットに適用し、事前に定義された製品カテゴリをガイド構造として活用する。
評価の結果,SPFは,特に計算効率と予測性能の点で,他のトピックモデルと比較して優れた分類性能が得られることが示された。
さらに、堅牢性チェックは、不完全なシードワード選択の場合であっても、ドメイン知識とデータ駆動トピックディスカバリを適応的にバランスさせるSPFの能力を強調している。
これらの結果は、専門家の知識をトピックモデリングに統合するための強力でスケーラブルな代替手段としてSPFを確立し、現実世界のアプリケーションにおける解釈可能性と効率性を向上させる。
関連論文リスト
- High-Performance Few-Shot Segmentation with Foundation Models: An Empirical Study [64.06777376676513]
基礎モデルに基づく数ショットセグメンテーション(FSS)フレームワークを開発した。
具体的には、基礎モデルから暗黙的な知識を抽出し、粗い対応を構築するための簡単なアプローチを提案する。
2つの広く使われているデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-10T08:04:11Z) - Implicit Generative Prior for Bayesian Neural Networks [8.013264410621357]
複雑なデータ構造のための新しいニューラルネットワーク型経験ベイズ(NA-EB)フレームワークを提案する。
NA-EBフレームワークは変分推論と勾配上昇アルゴリズムを組み合わせたものである。
各種タスクの広範囲な評価を通じて,本フレームワークの実践的応用を実証する。
論文 参考訳(メタデータ) (2024-04-27T21:00:38Z) - Prospector Heads: Generalized Feature Attribution for Large Models & Data [82.02696069543454]
本稿では,説明に基づく帰属手法の効率的かつ解釈可能な代替手段であるプロスペクタヘッドを紹介する。
入力データにおけるクラス固有のパターンの解釈と発見を、プロファイラヘッドがいかに改善できるかを実証する。
論文 参考訳(メタデータ) (2024-02-18T23:01:28Z) - Subject-specific Deep Neural Networks for Count Data with
High-cardinality Categorical Features [1.2289361708127877]
本稿では,ポアソンディープニューラルネットワークにガンマランダム効果を導入するための新しい階層的確率学習フレームワークを提案する。
提案手法は,固定パラメータの最大極大推定器とランダム効果の最適非バイアス予測器を同時に生成する。
最先端のネットワークアーキテクチャは、提案されたh-likelihoodフレームワークに容易に実装できる。
論文 参考訳(メタデータ) (2023-10-18T01:54:48Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Deep networks for system identification: a Survey [56.34005280792013]
システム識別は、入力出力データから動的システムの数学的記述を学習する。
同定されたモデルの主な目的は、以前の観測から新しいデータを予測することである。
我々は、フィードフォワード、畳み込み、リカレントネットワークなどの文献で一般的に採用されているアーキテクチャについて論じる。
論文 参考訳(メタデータ) (2023-01-30T12:38:31Z) - Convex Polytope Modelling for Unsupervised Derivation of Semantic
Structure for Data-efficient Natural Language Understanding [31.888489552069146]
Convex-Polytopic-Modelベースのフレームワークは、生のダイアログコーパスを利用して意味パターンを自動的に抽出する大きな可能性を示している。
このフレームワークは,コーパスのセマンティックフレーム関連機能を活用し,発話の基盤となるセマンティック構造を明らかにし,最小限の監視で最先端のNLUモデルの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-01-25T19:12:44Z) - Context Decoupling Augmentation for Weakly Supervised Semantic
Segmentation [53.49821324597837]
微調整されたセマンティックセグメンテーションは、近年深く研究されている困難な問題です。
本稿では、オブジェクトが現れる固有のコンテキストを変更する Context Decoupling Augmentation (CDA) メソッドを紹介します。
提案手法の有効性を検証するため, PASCAL VOC 2012データセットにいくつかの代替ネットワークアーキテクチャを用いた広範な実験を行い, CDAが様々なWSSS手法を新たな最先端技術に拡張できることを実証した。
論文 参考訳(メタデータ) (2021-03-02T15:05:09Z) - Generative Counterfactuals for Neural Networks via Attribute-Informed
Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。
異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。
実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文 参考訳(メタデータ) (2021-01-18T08:37:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。