論文の概要: Seeded Poisson Factorization: leveraging domain knowledge to fit topic models
- arxiv url: http://arxiv.org/abs/2503.02741v2
- Date: Sat, 04 Oct 2025 18:42:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 19:16:49.347758
- Title: Seeded Poisson Factorization: leveraging domain knowledge to fit topic models
- Title(参考訳): シードポアソン因子化:ドメイン知識をトピックモデルに適合させる
- Authors: Bernd Prostmaier, Jan Vávra, Bettina Grün, Paul Hofmarcher,
- Abstract要約: seeded Poisson Factorization (SPF)は、シードワードを通じてドメイン知識を統合することで、Poisson Factorization (PF)フレームワークを拡張する新しいアプローチである。
SPFは、計算効率と分類性能の点で、代替のガイド付きトピックモデルよりも優れた性能を達成する。
- 参考スコア(独自算出の注目度): 0.6299766708197883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Topic models are widely used for discovering latent thematic structures in large text corpora, yet traditional unsupervised methods often struggle to align with pre-defined conceptual domains. This paper introduces seeded Poisson Factorization (SPF), a novel approach that extends the Poisson Factorization (PF) framework by incorporating domain knowledge through seed words. SPF enables a structured topic discovery by modifying the prior distribution of topic-specific term intensities, assigning higher initial rates to pre-defined seed words. The model is estimated using variational inference with stochastic gradient optimization, ensuring scalability to large datasets. We present in detail the results of applying SPF to an Amazon customer feedback dataset, leveraging pre-defined product categories as guiding structures. SPF achieves superior performance compared to alternative guided probabilistic topic models in terms of computational efficiency and classification performance. Robustness checks highlight SPF's ability to adaptively balance domain knowledge and data-driven topic discovery, even in case of imperfect seed word selection. Further applications of SPF to four additional benchmark datasets, where the corpus varies in size and the number of topics differs, demonstrate its general superior classification performance compared to the unseeded PF model.
- Abstract(参考訳): トピックモデルは大きなテキストコーパスで潜在テーマ構造を発見するのに広く用いられているが、伝統的な教師なしの手法は、事前に定義された概念的領域と整合するのに苦労することが多い。
本稿では、シードワードを通じてドメイン知識を組み込むことにより、PF(Poisson Factorization)フレームワークを拡張する新しいアプローチであるシードドポアソン因子化(SPF)を紹介する。
SPFは、トピック固有の用語強度の事前分布を変更し、事前定義されたシードワードにより高い初期レートを割り当てることで、構造化されたトピック発見を可能にする。
モデルは確率的勾配最適化による変分推論を用いて推定され、大規模データセットへのスケーラビリティを確保する。
本稿では、Amazonの顧客フィードバックデータセットにSPFを適用し、事前に定義された製品カテゴリをガイド構造として活用する。
SPFは、計算効率と分類性能の観点から、代替のガイド付き確率的トピックモデルよりも優れた性能を達成する。
ロバストネスチェックは、不完全なシードワード選択であっても、ドメイン知識とデータ駆動トピックディスカバリを適応的にバランスさせるSPFの機能を強調している。
SPFの4つの追加ベンチマークデータセットへのさらなる応用は、コーパスのサイズが異なり、トピックの数が異なる。
関連論文リスト
- Matching-Based Few-Shot Semantic Segmentation Models Are Interpretable by Design [8.993770750003673]
Few-Shot Semantic (FSS)モデルは、最小限のラベル付き例を持つ新規クラスのセグメンテーションにおいて強力な性能を達成する。
本稿では、マッチングベースのFSSモデルを解釈するための最初の専用手法を提案する。
Affinity Explainer アプローチは,画像のどのピクセルがクエリセグメンテーション予測に最も寄与しているかを示す属性マップを抽出する。
論文 参考訳(メタデータ) (2025-11-22T19:22:10Z) - No-rank Tensor Decomposition Using Metric Learning [0.0]
本稿では,計量学習に基づく非ランクテンソル分解フレームワークを提案する。
フレームワークの収束に関する理論的保証を提供し、その計量特性の有界性を確立する。
提案手法は, トランスフォーマーに基づく手法と比較して, より少ないトレーニングデータセットで優れた性能を実現する。
論文 参考訳(メタデータ) (2025-11-03T18:21:53Z) - An Enhanced Model-based Approach for Short Text Clustering [58.60681789677676]
Twitter、Google+、Facebookなどのソーシャルメディアの人気が高まり、短いテキストのクラスタリングがますます重要になっている。
既存の手法は、トピックモデルに基づくアプローチと深層表現学習に基づくアプローチの2つのパラダイムに大別することができる。
短文の空間性と高次元性を効果的に扱えるDirichlet Multinomial Mixture Model (GSDMM) のギブスサンプリングアルゴリズムを提案する。
さらなる改良を保証しているGSDMMのいくつかの側面に基づいて,さらなる性能向上を目的とした改良されたアプローチであるGSDMM+を提案する。
論文 参考訳(メタデータ) (2025-07-18T10:07:42Z) - Iterative Augmentation with Summarization Refinement (IASR) Evaluation for Unstructured Survey data Modeling and Analysis [0.43988112145759295]
本研究は,大規模言語モデル(LLM)に基づくテキスト拡張のための原則的評価フレームワークを導入する。
実証評価の結果, GPT-3.5 Turbo はセマンティック忠実度, 多様性, 生成効率の最良のバランスを達成できた。
論文 参考訳(メタデータ) (2025-07-16T10:49:30Z) - Detecting and Pruning Prominent but Detrimental Neurons in Large Language Models [68.57424628540907]
大規模言語モデル(LLM)は、しばしば特定のデータセットに特化した学習メカニズムを開発する。
本稿では,データセット固有のメカニズムに関連するニューロンの同定と解析により,一般化の促進を目的とした微調整手法を提案する。
本手法では,各ニューロンの高信頼度予測への影響を定量化するため,データセット固有の性能に不均等に寄与するニューロンを同定する。
論文 参考訳(メタデータ) (2025-07-12T08:10:10Z) - Semantic-preserved Augmentation with Confidence-weighted Fine-tuning for Aspect Category Sentiment Analysis [3.1394848827666544]
大規模言語モデル(LLM)は、低リソースシナリオにおけるデータの不足に対処するための効果的なアプローチである。
本稿では、アスペクトカテゴリー感情分析タスクのためのデータ拡張戦略を提案する。
我々は、生成した文と原文とのセマンティック一貫性を確保するために、後処理技術を用いる。
論文 参考訳(メタデータ) (2025-06-08T13:53:28Z) - Intuitionistic Fuzzy Sets for Large Language Model Data Annotation: A Novel Approach to Side-by-Side Preference Labeling [0.0]
本稿では,多言語モデル(LLM)における人間の嗜好をモデル化・集約するための直観的ファジィ集合(IFS)に基づく新しい枠組みを提案する。
我々のアプローチは、選好の度合いだけでなく、メンバーシップ、非メンバーシップ、およびヒューイテーションの度合いを通じて、人間の判断に固有の不確実性や偏見も捉えている。
複数のデータセットに対する実験的検証は、我々のIFSベースのアプローチがアノテーションの一貫性を大幅に改善し、アノテータの疲労を低減し、高品質な嗜好データを生成することを示した。
論文 参考訳(メタデータ) (2025-05-30T04:20:00Z) - PPGF: Probability Pattern-Guided Time Series Forecasting [26.76674322652511]
時系列予測(TSF)は、機械学習の重要な分野であり、様々な応用がある。
確率誘導時系列予測(F)というエンドツーエンドのフレームワークを提案する。
PPGFは、確率的パターン分類によって導かれる予測タスクとして、TSF問題を再構成する。
論文 参考訳(メタデータ) (2025-02-18T12:06:42Z) - Structural Entropy Guided Probabilistic Coding [52.01765333755793]
構造エントロピー誘導型確率的符号化モデルSEPCを提案する。
我々は、構造エントロピー正規化損失を提案することにより、潜在変数間の関係を最適化に組み込む。
分類タスクと回帰タスクの両方を含む12の自然言語理解タスクに対する実験結果は、SEPCの優れた性能を示す。
論文 参考訳(メタデータ) (2024-12-12T00:37:53Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - High-Performance Few-Shot Segmentation with Foundation Models: An Empirical Study [64.06777376676513]
基礎モデルに基づく数ショットセグメンテーション(FSS)フレームワークを開発した。
具体的には、基礎モデルから暗黙的な知識を抽出し、粗い対応を構築するための簡単なアプローチを提案する。
2つの広く使われているデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-10T08:04:11Z) - Implicit Generative Prior for Bayesian Neural Networks [8.013264410621357]
複雑なデータ構造のための新しいニューラルネットワーク型経験ベイズ(NA-EB)フレームワークを提案する。
NA-EBフレームワークは変分推論と勾配上昇アルゴリズムを組み合わせたものである。
各種タスクの広範囲な評価を通じて,本フレームワークの実践的応用を実証する。
論文 参考訳(メタデータ) (2024-04-27T21:00:38Z) - Prospector Heads: Generalized Feature Attribution for Large Models & Data [82.02696069543454]
本稿では,説明に基づく帰属手法の効率的かつ解釈可能な代替手段であるプロスペクタヘッドを紹介する。
入力データにおけるクラス固有のパターンの解釈と発見を、プロファイラヘッドがいかに改善できるかを実証する。
論文 参考訳(メタデータ) (2024-02-18T23:01:28Z) - Subject-specific Deep Neural Networks for Count Data with
High-cardinality Categorical Features [1.2289361708127877]
本稿では,ポアソンディープニューラルネットワークにガンマランダム効果を導入するための新しい階層的確率学習フレームワークを提案する。
提案手法は,固定パラメータの最大極大推定器とランダム効果の最適非バイアス予測器を同時に生成する。
最先端のネットワークアーキテクチャは、提案されたh-likelihoodフレームワークに容易に実装できる。
論文 参考訳(メタデータ) (2023-10-18T01:54:48Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Deep networks for system identification: a Survey [56.34005280792013]
システム識別は、入力出力データから動的システムの数学的記述を学習する。
同定されたモデルの主な目的は、以前の観測から新しいデータを予測することである。
我々は、フィードフォワード、畳み込み、リカレントネットワークなどの文献で一般的に採用されているアーキテクチャについて論じる。
論文 参考訳(メタデータ) (2023-01-30T12:38:31Z) - Pre-trained Language Models for Keyphrase Generation: A Thorough
Empirical Study [76.52997424694767]
事前学習言語モデルを用いて,キーフレーズ抽出とキーフレーズ生成の詳細な実験を行った。
PLMは、競争力のある高リソース性能と最先端の低リソース性能を持つことを示す。
さらに,領域内のBERTライクなPLMを用いて,強大かつデータ効率のよいキーフレーズ生成モデルを構築できることが示唆された。
論文 参考訳(メタデータ) (2022-12-20T13:20:21Z) - Convex Polytope Modelling for Unsupervised Derivation of Semantic
Structure for Data-efficient Natural Language Understanding [31.888489552069146]
Convex-Polytopic-Modelベースのフレームワークは、生のダイアログコーパスを利用して意味パターンを自動的に抽出する大きな可能性を示している。
このフレームワークは,コーパスのセマンティックフレーム関連機能を活用し,発話の基盤となるセマンティック構造を明らかにし,最小限の監視で最先端のNLUモデルの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-01-25T19:12:44Z) - Context Decoupling Augmentation for Weakly Supervised Semantic
Segmentation [53.49821324597837]
微調整されたセマンティックセグメンテーションは、近年深く研究されている困難な問題です。
本稿では、オブジェクトが現れる固有のコンテキストを変更する Context Decoupling Augmentation (CDA) メソッドを紹介します。
提案手法の有効性を検証するため, PASCAL VOC 2012データセットにいくつかの代替ネットワークアーキテクチャを用いた広範な実験を行い, CDAが様々なWSSS手法を新たな最先端技術に拡張できることを実証した。
論文 参考訳(メタデータ) (2021-03-02T15:05:09Z) - Generative Counterfactuals for Neural Networks via Attribute-Informed
Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。
異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。
実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文 参考訳(メタデータ) (2021-01-18T08:37:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。