論文の概要: The Geometric Structure of Topic Models
- arxiv url: http://arxiv.org/abs/2403.03607v1
- Date: Wed, 6 Mar 2024 10:53:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 15:27:02.454780
- Title: The Geometric Structure of Topic Models
- Title(参考訳): トピックモデルの幾何学的構造
- Authors: Johannes Hirth, Tom Hanika
- Abstract要約: 研究や応用に広く利用されているにもかかわらず、トピックモデルの詳細な分析は依然としてオープンな研究トピックである。
平坦なトピックモデルから順序構造を導出する入射幾何学的手法を提案する。
規則的モチーフに基づく概念階層のための新しい可視化パラダイムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Topic models are a popular tool for clustering and analyzing textual data.
They allow texts to be classified on the basis of their affiliation to the
previously calculated topics. Despite their widespread use in research and
application, an in-depth analysis of topic models is still an open research
topic. State-of-the-art methods for interpreting topic models are based on
simple visualizations, such as similarity matrices, top-term lists or
embeddings, which are limited to a maximum of three dimensions. In this paper,
we propose an incidence-geometric method for deriving an ordinal structure from
flat topic models, such as non-negative matrix factorization. These enable the
analysis of the topic model in a higher (order) dimension and the possibility
of extracting conceptual relationships between several topics at once. Due to
the use of conceptual scaling, our approach does not introduce any artificial
topical relationships, such as artifacts of feature compression. Based on our
findings, we present a new visualization paradigm for concept hierarchies based
on ordinal motifs. These allow for a top-down view on topic spaces. We
introduce and demonstrate the applicability of our approach based on a topic
model derived from a corpus of scientific papers taken from 32 top machine
learning venues.
- Abstract(参考訳): トピックモデルは、テキストデータのクラスタリングと分析に人気のあるツールである。
テキストは、以前計算されたトピックへのアフィリエイトに基づいて分類することができる。
研究と応用に広く使われているにもかかわらず、トピックモデルの詳細な分析は依然としてオープン研究のトピックである。
トピックモデルを解釈するための最先端の手法は、類似度行列、最上位リスト、埋め込みなど、最大3次元に制限された単純な視覚化に基づいている。
本稿では,非負行列分解などの平坦な話題モデルから順序構造を導出する入射幾何学的手法を提案する。
これにより、高次次元のトピックモデルの解析と、複数のトピック間の概念的関係を一度に抽出することが可能になる。
提案手法は, 概念的スケーリングを用いることで, 特徴圧縮の成果物など, 人工的な話題関係を導入しない。
そこで本研究では,順序モチーフに基づく概念階層のための新しい可視化パラダイムを提案する。
これらはトピック空間のトップダウンビューを可能にする。
我々は,トップ32の機械学習会場から抽出した学術論文のコーパスから得られたトピックモデルに基づいて,我々のアプローチの適用性を紹介し,実証する。
関連論文リスト
- Knowledge-Aware Bayesian Deep Topic Model [50.58975785318575]
本稿では,事前知識を階層型トピックモデリングに組み込むベイズ生成モデルを提案する。
提案モデルでは,事前知識を効率的に統合し,階層的なトピック発見と文書表現の両面を改善する。
論文 参考訳(メタデータ) (2022-09-20T09:16:05Z) - TopicNet: Semantic Graph-Guided Topic Discovery [51.71374479354178]
既存の階層的なトピックモデルでは、教師なしの方法でテキストコーパスから意味論的意味のあるトピックを抽出することができる。
TopicNetを階層的なトピックモデルとして導入し、学習に影響を与えるための帰納的バイアスとして、事前構造知識を注入する。
論文 参考訳(メタデータ) (2021-10-27T09:07:14Z) - Learning Topic Models: Identifiability and Finite-Sample Analysis [6.181048261489101]
本稿では,特定の統合可能性に基づく潜在トピックの最大確率推定器(MLE)を提案する。
シミュレーションと実データの両方について実証的研究を行った。
論文 参考訳(メタデータ) (2021-10-08T16:35:42Z) - Semiparametric Latent Topic Modeling on Consumer-Generated Corpora [0.0]
本稿では,非負行列因数分解と半パラメトリック回帰を利用したトピックモデリングにおける2段階のアプローチである,半パラメトリックトピックモデルを提案する。
このモデルにより、コーパス内のスパーストピック構造を再構築することができ、コーパスに入る新しい文書のトピックを予測するための生成モデルを提供する。
実際の消費者フィードバックコーパスでは、モデルは、他のメソッドが生成したものに匹敵する解釈可能で有用なトピック定義を提供する。
論文 参考訳(メタデータ) (2021-07-13T00:22:02Z) - Sawtooth Factorial Topic Embeddings Guided Gamma Belief Network [49.458250193768826]
本稿では,文書の深部生成モデルであるGBNのソートゥース要素埋め込みについて述べる。
単語も話題も同じ次元の埋め込みベクトルとして表現される。
我々のモデルは、より深い解釈可能なトピックを抽出する他のニューラルネットワークモデルよりも優れています。
論文 参考訳(メタデータ) (2021-06-30T10:14:57Z) - Improving Neural Topic Models using Knowledge Distillation [84.66983329587073]
我々は,確率論的トピックモデルと事前学習されたトランスフォーマーの最適属性を組み合わせるために,知識蒸留を用いる。
我々のモジュラー手法は、どのニューラルトピックモデルでも簡単に適用でき、トピックの品質を向上させることができる。
論文 参考訳(メタデータ) (2020-10-05T22:49:16Z) - Explainable Matrix -- Visualization for Global and Local
Interpretability of Random Forest Classification Ensembles [78.6363825307044]
本研究では,ランダムフォレスト (RF) 解釈のための新しい可視化手法である Explainable Matrix (ExMatrix) を提案する。
単純なマトリックスのようなメタファで、行はルール、列は特徴、セルはルールを述語する。
ExMatrixの適用性は、異なる例を通じて確認され、RFモデルの解釈可能性を促進するために実際にどのように使用できるかを示している。
論文 参考訳(メタデータ) (2020-05-08T21:03:48Z) - Tired of Topic Models? Clusters of Pretrained Word Embeddings Make for
Fast and Good Topics too! [5.819224524813161]
事前学習した単語の埋め込みをクラスタリングし、重み付けされたクラスタリングと上位単語の再ランク付けのための文書情報を組み込んだ別の方法を提案する。
このアプローチの最も優れた組み合わせは、従来のトピックモデルと同様に機能するが、ランタイムと計算の複雑さは低い。
論文 参考訳(メタデータ) (2020-04-30T16:18:18Z) - Keyword Assisted Topic Models [0.0]
少数のキーワードを提供することで,話題モデルの計測性能を大幅に向上させることができることを示す。
KeyATMは、より解釈可能な結果を提供し、文書分類性能が向上し、標準トピックモデルよりもトピックの数に敏感でない。
論文 参考訳(メタデータ) (2020-04-13T14:35:28Z) - How Far are We from Effective Context Modeling? An Exploratory Study on
Semantic Parsing in Context [59.13515950353125]
文法に基づく意味解析を行い,その上に典型的な文脈モデリング手法を適用する。
我々は,2つの大きなクロスドメインデータセットに対して,13のコンテキストモデリング手法を評価した。
論文 参考訳(メタデータ) (2020-02-03T11:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。