論文の概要: Large-Scale Evaluation of Topic Models and Dimensionality Reduction
Methods for 2D Text Spatialization
- arxiv url: http://arxiv.org/abs/2307.11770v1
- Date: Mon, 17 Jul 2023 14:08:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-30 04:17:33.306201
- Title: Large-Scale Evaluation of Topic Models and Dimensionality Reduction
Methods for 2D Text Spatialization
- Title(参考訳): 2次元テキスト空間化のための話題モデルの大規模評価と次元縮小法
- Authors: Daniel Atzberger, Tim Cech, Willy Scheibel, Matthias Trapp, Rico
Richter, J\"urgen D\"ollner, Tobias Schreck
- Abstract要約: 本稿では,テキストコーパスの構造を抽出する上で,解釈可能なトピックモデルが有用であることを示す。
トピックモデルと次元削減に基づくテキスト空間化の効果的な設計のためのガイドラインを提案する。
- 参考スコア(独自算出の注目度): 2.6034734004409303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Topic models are a class of unsupervised learning algorithms for detecting
the semantic structure within a text corpus. Together with a subsequent
dimensionality reduction algorithm, topic models can be used for deriving
spatializations for text corpora as two-dimensional scatter plots, reflecting
semantic similarity between the documents and supporting corpus analysis.
Although the choice of the topic model, the dimensionality reduction, and their
underlying hyperparameters significantly impact the resulting layout, it is
unknown which particular combinations result in high-quality layouts with
respect to accuracy and perception metrics. To investigate the effectiveness of
topic models and dimensionality reduction methods for the spatialization of
corpora as two-dimensional scatter plots (or basis for landscape-type
visualizations), we present a large-scale, benchmark-based computational
evaluation. Our evaluation consists of (1) a set of corpora, (2) a set of
layout algorithms that are combinations of topic models and dimensionality
reductions, and (3) quality metrics for quantifying the resulting layout. The
corpora are given as document-term matrices, and each document is assigned to a
thematic class. The chosen metrics quantify the preservation of local and
global properties and the perceptual effectiveness of the two-dimensional
scatter plots. By evaluating the benchmark on a computing cluster, we derived a
multivariate dataset with over 45 000 individual layouts and corresponding
quality metrics. Based on the results, we propose guidelines for the effective
design of text spatializations that are based on topic models and
dimensionality reductions. As a main result, we show that interpretable topic
models are beneficial for capturing the structure of text corpora. We
furthermore recommend the use of t-SNE as a subsequent dimensionality
reduction.
- Abstract(参考訳): トピックモデルは、テキストコーパス内の意味構造を検出するための教師なし学習アルゴリズムのクラスである。
その後の次元削減アルゴリズムとともに、テキストコーパスの空間化を2次元散乱プロットとして導出し、文書間の意味的類似性を反映し、コーパス解析を支援するためにトピックモデルを用いることができる。
トピックモデルの選択、次元の縮小、それらの基礎となるハイパーパラメータは、結果として生じるレイアウトに大きな影響を与えるが、どの組み合わせが精度と知覚の指標に関して高品質なレイアウトをもたらすのかは不明である。
本研究では,2次元散乱プロット(またはランドスケープ型可視化の基礎)としてのコーパスの空間化に対するトピックモデルと次元低減手法の有効性を検討するため,大規模ベンチマークに基づく計算評価を行う。
本評価は,(1)コーパスの組,(2)トピックモデルと次元縮小を組み合わせたレイアウトアルゴリズムの組,(3)レイアウトの定量化のための品質指標からなる。
コーパスは文書項行列として与えられ、各文書は主題クラスに割り当てられる。
選択された指標は、局所的および大域的特性の保存と二次元散乱プロットの知覚的有効性を定量化する。
計算クラスタ上でのベンチマークを評価することにより,40000以上の個別レイアウトと対応する品質指標を備えた多変量データセットを導出した。
そこで本研究では,話題モデルと次元性低減に基づくテキスト空間化の効果的な設計のためのガイドラインを提案する。
その結果,解釈可能な話題モデルはテキストコーパスの構造を捉えるのに有用であることがわかった。
さらに, t-SNE をその後の次元化に活用することを推奨する。
関連論文リスト
- A Large-Scale Sensitivity Analysis on Latent Embeddings and Dimensionality Reductions for Text Spatializations [4.810926556822174]
テキストコーパスの文書間の意味的類似性は、地図のようなメタファーを用いて可視化することができる。
これらの散乱プロットレイアウトは、文書終端行列の次元的縮小や、潜伏埋め込み内の表現によって生じる。
本稿では,テキストコーパスの変化に関して,これらのレイアウトの安定性を解析する感度研究について述べる。
論文 参考訳(メタデータ) (2024-07-25T08:46:49Z) - A new visual quality metric for Evaluating the performance of multidimensional projections [1.6574413179773757]
人間の知覚に基づく新しい視覚品質指標を提案する。
提案手法は,MPの質を従来の測定値よりも正確に分析する。
論文 参考訳(メタデータ) (2024-07-23T09:02:46Z) - Quantization of Large Language Models with an Overdetermined Basis [73.79368761182998]
本稿では,嘉心表現の原理に基づくデータ量子化アルゴリズムを提案する。
以上の結果から, カシ量子化はモデル性能の競争力や優れた品質を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T12:38:46Z) - Distributional Reduction: Unifying Dimensionality Reduction and Clustering with Gromov-Wasserstein [56.62376364594194]
教師なし学習は、潜在的に大きな高次元データセットの基盤構造を捉えることを目的としている。
本研究では、最適輸送のレンズの下でこれらのアプローチを再検討し、Gromov-Wasserstein問題と関係を示す。
これにより、分散還元と呼ばれる新しい一般的なフレームワークが公開され、DRとクラスタリングを特別なケースとして回復し、単一の最適化問題内でそれらに共同で対処することができる。
論文 参考訳(メタデータ) (2024-02-03T19:00:19Z) - ShaRP: Shape-Regularized Multidimensional Projections [71.30697308446064]
本稿では,生成した散布板の視覚的シグネチャをユーザが明示的に制御できる新しいプロジェクション技術,ShaRPを提案する。
ShaRPは次元とデータセットサイズによく対応し、任意の定量的データセットを汎用的に処理する。
論文 参考訳(メタデータ) (2023-06-01T11:16:58Z) - The Deep Latent Position Topic Model for Clustering and Representation
of Networks with Textual Edges [2.6334900941196087]
Deep-LPTMは、変分グラフ自動エンコーダアプローチに基づくモデルベースのクラスタリング戦略である。
Enron社のメールは分析され、その結果の視覚化が提示される。
論文 参考訳(メタデータ) (2023-04-14T07:01:57Z) - Optimal Discriminant Analysis in High-Dimensional Latent Factor Models [1.4213973379473654]
高次元分類問題において、一般的に用いられるアプローチは、まず高次元の特徴を低次元空間に射影することである。
我々は、この2段階の手順を正当化するために、隠れた低次元構造を持つ潜在変数モデルを定式化する。
観測された特徴の特定の主成分(PC)を射影とする計算効率の良い分類器を提案する。
論文 参考訳(メタデータ) (2022-10-23T21:45:53Z) - CCP: Correlated Clustering and Projection for Dimensionality Reduction [5.992724190105578]
Correlated Clustering and Projectionは、マトリックスを解決する必要のない、新しいデータドメイン戦略を提供する。
CCPは、高次元の機能を相関クラスタに分割し、各クラスタの相関した機能を1次元の表現に分割する。
提案手法は、さまざまな機械学習アルゴリズムに関連するベンチマークデータセットを用いて検証される。
論文 参考訳(メタデータ) (2022-06-08T23:14:44Z) - Set Based Stochastic Subsampling [85.5331107565578]
本稿では,2段階間ニューラルサブサンプリングモデルを提案する。
画像分類,画像再構成,機能再構築,少数ショット分類など,様々なタスクにおいて,低いサブサンプリング率で関連ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-25T07:36:47Z) - Two-Dimensional Semi-Nonnegative Matrix Factorization for Clustering [50.43424130281065]
TS-NMFと呼ばれる2次元(2次元)データに対する新しい半負行列分解法を提案する。
前処理ステップで2次元データをベクトルに変換することで、データの空間情報に深刻なダメージを与える既存の手法の欠点を克服する。
論文 参考訳(メタデータ) (2020-05-19T05:54:14Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。