論文の概要: The Geometric Structure of Topic Models
- arxiv url: http://arxiv.org/abs/2403.03607v1
- Date: Wed, 6 Mar 2024 10:53:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 15:27:02.454780
- Title: The Geometric Structure of Topic Models
- Title(参考訳): トピックモデルの幾何学的構造
- Authors: Johannes Hirth, Tom Hanika
- Abstract要約: 研究や応用に広く利用されているにもかかわらず、トピックモデルの詳細な分析は依然としてオープンな研究トピックである。
平坦なトピックモデルから順序構造を導出する入射幾何学的手法を提案する。
規則的モチーフに基づく概念階層のための新しい可視化パラダイムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Topic models are a popular tool for clustering and analyzing textual data.
They allow texts to be classified on the basis of their affiliation to the
previously calculated topics. Despite their widespread use in research and
application, an in-depth analysis of topic models is still an open research
topic. State-of-the-art methods for interpreting topic models are based on
simple visualizations, such as similarity matrices, top-term lists or
embeddings, which are limited to a maximum of three dimensions. In this paper,
we propose an incidence-geometric method for deriving an ordinal structure from
flat topic models, such as non-negative matrix factorization. These enable the
analysis of the topic model in a higher (order) dimension and the possibility
of extracting conceptual relationships between several topics at once. Due to
the use of conceptual scaling, our approach does not introduce any artificial
topical relationships, such as artifacts of feature compression. Based on our
findings, we present a new visualization paradigm for concept hierarchies based
on ordinal motifs. These allow for a top-down view on topic spaces. We
introduce and demonstrate the applicability of our approach based on a topic
model derived from a corpus of scientific papers taken from 32 top machine
learning venues.
- Abstract(参考訳): トピックモデルは、テキストデータのクラスタリングと分析に人気のあるツールである。
テキストは、以前計算されたトピックへのアフィリエイトに基づいて分類することができる。
研究と応用に広く使われているにもかかわらず、トピックモデルの詳細な分析は依然としてオープン研究のトピックである。
トピックモデルを解釈するための最先端の手法は、類似度行列、最上位リスト、埋め込みなど、最大3次元に制限された単純な視覚化に基づいている。
本稿では,非負行列分解などの平坦な話題モデルから順序構造を導出する入射幾何学的手法を提案する。
これにより、高次次元のトピックモデルの解析と、複数のトピック間の概念的関係を一度に抽出することが可能になる。
提案手法は, 概念的スケーリングを用いることで, 特徴圧縮の成果物など, 人工的な話題関係を導入しない。
そこで本研究では,順序モチーフに基づく概念階層のための新しい可視化パラダイムを提案する。
これらはトピック空間のトップダウンビューを可能にする。
我々は,トップ32の機械学習会場から抽出した学術論文のコーパスから得られたトピックモデルに基づいて,我々のアプローチの適用性を紹介し,実証する。
関連論文リスト
- Semantic-Driven Topic Modeling Using Transformer-Based Embeddings and Clustering Algorithms [6.349503549199403]
本研究は,トピック抽出プロセスのための革新的エンド・ツー・エンドのセマンティクス駆動トピックモデリング手法を提案する。
本モデルは,事前学習したトランスフォーマーベース言語モデルを用いて文書埋め込みを生成する。
ChatGPTや従来のトピックモデリングアルゴリズムと比較して、我々のモデルはより一貫性があり有意義なトピックを提供する。
論文 参考訳(メタデータ) (2024-09-30T18:15:31Z) - Interactive Topic Models with Optimal Transport [75.26555710661908]
ラベル名監視型トピックモデリングのためのアプローチとして,EdTMを提案する。
EdTMは、LM/LLMベースのドキュメントトピック親和性を活用しながら、代入問題としてのトピックモデリングをモデル化する。
論文 参考訳(メタデータ) (2024-06-28T13:57:27Z) - GINopic: Topic Modeling with Graph Isomorphism Network [0.8962460460173959]
本稿では,グラフ同型ネットワークに基づく話題モデリングフレームワークGINopicを紹介し,単語間の相関関係を捉える。
本稿では,既存のトピックモデルと比較してGINopicの有効性を実証し,トピックモデリングの進歩の可能性を明らかにする。
論文 参考訳(メタデータ) (2024-04-02T17:18:48Z) - Knowledge-Aware Bayesian Deep Topic Model [50.58975785318575]
本稿では,事前知識を階層型トピックモデリングに組み込むベイズ生成モデルを提案する。
提案モデルでは,事前知識を効率的に統合し,階層的なトピック発見と文書表現の両面を改善する。
論文 参考訳(メタデータ) (2022-09-20T09:16:05Z) - TopicNet: Semantic Graph-Guided Topic Discovery [51.71374479354178]
既存の階層的なトピックモデルでは、教師なしの方法でテキストコーパスから意味論的意味のあるトピックを抽出することができる。
TopicNetを階層的なトピックモデルとして導入し、学習に影響を与えるための帰納的バイアスとして、事前構造知識を注入する。
論文 参考訳(メタデータ) (2021-10-27T09:07:14Z) - Learning Topic Models: Identifiability and Finite-Sample Analysis [6.181048261489101]
本稿では,特定の統合可能性に基づく潜在トピックの最大確率推定器(MLE)を提案する。
シミュレーションと実データの両方について実証的研究を行った。
論文 参考訳(メタデータ) (2021-10-08T16:35:42Z) - Semiparametric Latent Topic Modeling on Consumer-Generated Corpora [0.0]
本稿では,非負行列因数分解と半パラメトリック回帰を利用したトピックモデリングにおける2段階のアプローチである,半パラメトリックトピックモデルを提案する。
このモデルにより、コーパス内のスパーストピック構造を再構築することができ、コーパスに入る新しい文書のトピックを予測するための生成モデルを提供する。
実際の消費者フィードバックコーパスでは、モデルは、他のメソッドが生成したものに匹敵する解釈可能で有用なトピック定義を提供する。
論文 参考訳(メタデータ) (2021-07-13T00:22:02Z) - Improving Neural Topic Models using Knowledge Distillation [84.66983329587073]
我々は,確率論的トピックモデルと事前学習されたトランスフォーマーの最適属性を組み合わせるために,知識蒸留を用いる。
我々のモジュラー手法は、どのニューラルトピックモデルでも簡単に適用でき、トピックの品質を向上させることができる。
論文 参考訳(メタデータ) (2020-10-05T22:49:16Z) - Explainable Matrix -- Visualization for Global and Local
Interpretability of Random Forest Classification Ensembles [78.6363825307044]
本研究では,ランダムフォレスト (RF) 解釈のための新しい可視化手法である Explainable Matrix (ExMatrix) を提案する。
単純なマトリックスのようなメタファで、行はルール、列は特徴、セルはルールを述語する。
ExMatrixの適用性は、異なる例を通じて確認され、RFモデルの解釈可能性を促進するために実際にどのように使用できるかを示している。
論文 参考訳(メタデータ) (2020-05-08T21:03:48Z) - Keyword Assisted Topic Models [0.0]
少数のキーワードを提供することで,話題モデルの計測性能を大幅に向上させることができることを示す。
KeyATMは、より解釈可能な結果を提供し、文書分類性能が向上し、標準トピックモデルよりもトピックの数に敏感でない。
論文 参考訳(メタデータ) (2020-04-13T14:35:28Z) - How Far are We from Effective Context Modeling? An Exploratory Study on
Semantic Parsing in Context [59.13515950353125]
文法に基づく意味解析を行い,その上に典型的な文脈モデリング手法を適用する。
我々は,2つの大きなクロスドメインデータセットに対して,13のコンテキストモデリング手法を評価した。
論文 参考訳(メタデータ) (2020-02-03T11:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。