論文の概要: PRISM: PRIor from corpus Statistics for topic Modeling
- arxiv url: http://arxiv.org/abs/2603.29406v1
- Date: Tue, 31 Mar 2026 08:10:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.341083
- Title: PRISM: PRIor from corpus Statistics for topic Modeling
- Title(参考訳): PRISM: トピックモデリングのためのコーパス統計からのPRIor
- Authors: Tal Ishon, Yoav Goldberg, Uri Shaham,
- Abstract要約: PRISMは、単語共起統計からディリクレパラメータを導出し、生成過程を変更することなくLDAを初期化する手法である。
テキストと単一細胞RNA-seqデータによる実験により、PRISMはトピックの一貫性と解釈可能性を改善し、外部知識に依存したモデルと競合することを示した。
- 参考スコア(独自算出の注目度): 27.440846207534914
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Topic modeling seeks to uncover latent semantic structure in text, with LDA providing a foundational probabilistic framework. While recent methods often incorporate external knowledge (e.g., pre-trained embeddings), such reliance limits applicability in emerging or underexplored domains. We introduce \textbf{PRISM}, a corpus-intrinsic method that derives a Dirichlet parameter from word co-occurrence statistics to initialize LDA without altering its generative process. Experiments on text and single cell RNA-seq data show that PRISM improves topic coherence and interpretability, rivaling models that rely on external knowledge. These results underscore the value of corpus-driven initialization for topic modeling in resource-constrained settings. Code is available at: https://github.com/shaham-lab/PRISM.
- Abstract(参考訳): トピックモデリングは、LDAが基本的な確率的フレームワークを提供することによって、テキストの潜在意味構造を明らかにすることを目指している。
最近の手法は、しばしば外部知識(例えば、事前訓練された埋め込み)を組み込むが、そのような依存は、創発的または未調査領域における適用性を制限している。
本稿では,単語共起統計量からディリクレパラメータを導出し,生成過程を変更することなく LDA を初期化するコーパス内在的手法である \textbf{PRISM} を紹介する。
テキストと単一細胞RNA-seqデータによる実験により、PRISMはトピックの一貫性と解釈可能性を改善し、外部知識に依存したモデルと競合することを示した。
これらの結果は,資源制約条件下でのトピックモデリングにおけるコーパス駆動初期化の価値を裏付けるものである。
コードは、https://github.com/shaham-lab/PRISM.comで入手できる。
関連論文リスト
- Private PoEtry: Private In-Context Learning via Product of Experts [58.496468062236225]
In-context Learning (ICL) は、大規模言語モデルが推論時に少数の例だけで新しいタスクに適応できるようにする。
ICLに対する既存の差分プライバシーアプローチは、計算コストが高いか、オーバーサンプリング、合成データ生成、あるいは不要なしきい値設定に依存している。
我々は、Product-of-Expertsモデルのレンズを通してプライベートICLを再構成し、理論的に基盤付けられたフレームワークを与え、アルゴリズムを自明に並列化することができる。
本手法は,従来のDP-ICL法と比較して平均30ポイント以上精度が向上し,高いプライバシー保証を維持した。
論文 参考訳(メタデータ) (2026-02-04T19:56:24Z) - Topic Analysis with Side Information: A Neural-Augmented LDA Approach [16.477230727313017]
本稿では,ニューラル先行機構を通じて側情報を組み込んだニューラル拡張確率的トピックモデルを提案する。
nnLDA は LDA と Dirichlet-Multinomial Regression を、トピックコヒーレンス、パープレキシティ、分布、下流分類において一貫して上回っている。
論文 参考訳(メタデータ) (2025-10-28T19:38:36Z) - PICASO: Permutation-Invariant Context Composition with State Space Models [98.91198288025117]
State Space Models (SSM) は、コンテキストのデータベースを固定次元の状態にマッピング可能にすることで、有望なソリューションを提供する。
本研究では,SSM力学から導かれる単純な数学的関係を,生のコンテキストトークンの連結効果を効率的に近似する複数の状態に構成する。
我々は,WikiText と MSMARCO をゼロショットと微調整の両方で評価し,平均5.4倍のスピードアップを楽しみながら最強の演奏ベースラインと一致できることを示す。
論文 参考訳(メタデータ) (2025-02-24T19:48:00Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder
for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。
テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。
各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文 参考訳(メタデータ) (2023-10-16T16:42:01Z) - Efficient and Flexible Topic Modeling using Pretrained Embeddings and
Bag of Sentences [1.8592384822257952]
本稿では,新しいトピックモデリングと推論アルゴリズムを提案する。
我々は,生成過程モデルとクラスタリングを組み合わせることで,事前学習文の埋め込みを活用する。
The Tailor の評価は,本手法が比較的少ない計算要求で最先端の成果をもたらすことを示している。
論文 参考訳(メタデータ) (2023-02-06T20:13:11Z) - Convex Polytope Modelling for Unsupervised Derivation of Semantic
Structure for Data-efficient Natural Language Understanding [31.888489552069146]
Convex-Polytopic-Modelベースのフレームワークは、生のダイアログコーパスを利用して意味パターンを自動的に抽出する大きな可能性を示している。
このフレームワークは,コーパスのセマンティックフレーム関連機能を活用し,発話の基盤となるセマンティック構造を明らかにし,最小限の監視で最先端のNLUモデルの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-01-25T19:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。