論文の概要: Two to Five Truths in Non-Negative Matrix Factorization
- arxiv url: http://arxiv.org/abs/2305.05389v2
- Date: Tue, 5 Sep 2023 16:14:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 05:26:12.075801
- Title: Two to Five Truths in Non-Negative Matrix Factorization
- Title(参考訳): 非負行列分解における2対5の真理
- Authors: John M. Conroy, Neil P Molino, Brian Baughman, Rod Gomez, Ryan
Kaliszewski, and Nicholas A. Lines
- Abstract要約: グラフに対する正規化ラプラシアン(NL)に着想を得たスケーリングを提案し、非負行列分解の質を大幅に向上させることができる。
マトリックススケーリングは、さまざまなデータセットのテキストトピックモデルに大幅な改善をもたらす。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we explore the role of matrix scaling on a matrix of counts
when building a topic model using non-negative matrix factorization. We present
a scaling inspired by the normalized Laplacian (NL) for graphs that can greatly
improve the quality of a non-negative matrix factorization. The results
parallel those in the spectral graph clustering work of \cite{Priebe:2019},
where the authors proved adjacency spectral embedding (ASE) spectral clustering
was more likely to discover core-periphery partitions and Laplacian Spectral
Embedding (LSE) was more likely to discover affinity partitions. In text
analysis non-negative matrix factorization (NMF) is typically used on a matrix
of co-occurrence ``contexts'' and ``terms" counts. The matrix scaling inspired
by LSE gives significant improvement for text topic models in a variety of
datasets. We illustrate the dramatic difference a matrix scalings in NMF can
greatly improve the quality of a topic model on three datasets where human
annotation is available. Using the adjusted Rand index (ARI), a measure cluster
similarity we see an increase of 50\% for Twitter data and over 200\% for a
newsgroup dataset versus using counts, which is the analogue of ASE. For clean
data, such as those from the Document Understanding Conference, NL gives over
40\% improvement over ASE. We conclude with some analysis of this phenomenon
and some connections of this scaling with other matrix scaling methods.
- Abstract(参考訳): 本稿では,非負行列分解を用いた話題モデル構築におけるカウント行列における行列スケーリングの役割について検討する。
本稿では,非負行列分解の品質を大幅に向上できるグラフの正規化ラプラシアン(nl)に触発されたスケーリングを提案する。
著者らは, 隣接スペクトル埋め込み (ase) のスペクトルクラスタリングにより, コア・ペリーピー分割が発見され, ラプラシアンスペクトル埋め込み (lse) は親和性分割が発見されやすいことを証明した。
テキスト解析では、非負行列分解(NMF)は、通常、共起の ``contexts'' と ` `terms' の数の行列で使用される。
LSEにインスパイアされた行列スケーリングは、さまざまなデータセットのテキストトピックモデルに大幅な改善をもたらす。
NMFにおける行列スケーリングの劇的な違いは、人間のアノテーションが利用できる3つのデータセットにおけるトピックモデルの品質を大幅に向上させることができる。
調整されたRand index(ARI)を用いることで、Twitterデータに対して50\%、ニュースグループデータセットに対して200\%以上増加し、ASEの類似であるカウントを使用することが分かる。
Document Understanding Conferenceのようなクリーンなデータに対して、NLはASEよりも40%以上改善している。
我々は、この現象のいくつかの解析と、このスケーリングと他の行列スケーリング手法との関係を結論付けている。
関連論文リスト
- Understanding Matrix Function Normalizations in Covariance Pooling through the Lens of Riemannian Geometry [63.694184882697435]
グローバル共分散プーリング(GCP)は、高レベルの表現の2階統計を利用して、ディープニューラルネットワーク(DNN)の性能を向上させることが実証されている。
論文 参考訳(メタデータ) (2024-07-15T07:11:44Z) - Interpretable Multi-View Clustering Based on Anchor Graph Tensor Factorization [78.22249047957939]
アンカーグラフの分解に基づくマルチビュークラスタリング法では,分解行列に対する適切なクラスタ解釈性が欠如している。
複数のビューからアンカーグラフを合成するアンカーグラフテンソルを分解するために、非負のテンソル因子分解を用いることにより、この制限に対処する。
論文 参考訳(メタデータ) (2024-04-01T03:23:55Z) - Clustering Three-Way Data with Outliers [1.2328446298523066]
行列変量正規データを異常値でクラスタリングする手法について論じる。
このアプローチは、サブセットのログライクな分布を使い、OCLUSTアルゴリズムを拡張し、反復的なアプローチを使ってアウトレイラを検出しトリムする。
論文 参考訳(メタデータ) (2023-10-08T21:27:29Z) - Learning Graphical Factor Models with Riemannian Optimization [70.13748170371889]
本稿では,低ランク構造制約下でのグラフ学習のためのフレキシブルなアルゴリズムフレームワークを提案する。
この問題は楕円分布のペナルティ化された最大推定値として表される。
楕円モデルによく適合する正定行列と定ランクの正半定行列のジオメトリを利用する。
論文 参考訳(メタデータ) (2022-10-21T13:19:45Z) - Stochastic Parallelizable Eigengap Dilation for Large Graph Clustering [12.544602297450533]
私たちは、ほとんどのエッジがクラスタ内に落ち、わずかにエッジがクラスタ間に落ちているノードのクラスタを特定することを目的としています。
スペクトルクラスタリングのコアステップは、対応するグラフラプラシア行列の固有分解を行う。
本稿では,SVDソルバを高速化し,スペクトルクラスタリングを行うために,スペクトルを並列化可能なアプローチを提案する。
論文 参考訳(メタデータ) (2022-07-29T10:13:07Z) - Optimal Variable Clustering for High-Dimensional Matrix Valued Data [3.1138411427556445]
本稿では,行列形式で配置された特徴に対して,新しい潜在変数モデルを提案する。
軽度条件下では,高次元設定でクラスタリングの整合性が得られる。
この重みを使用すれば、アルゴリズムが最小値の速度最適化であることが保証されるという意味で、最適な重みを識別する。
論文 参考訳(メタデータ) (2021-12-24T02:13:04Z) - Dictionary-based Low-Rank Approximations and the Mixed Sparse Coding
problem [7.132368785057316]
本稿では、LASSOに基づく効率的なMSC解法を用いて、辞書に基づく行列分解と正準多進分解を計算する方法を示す。
超スペクトル画像処理と化学計測の文脈における辞書に基づく行列分解と正準多進分解の計算に、LASSOに基づく効率的なMSC解法を適用する方法を示す。
論文 参考訳(メタデータ) (2021-11-24T10:32:48Z) - Sawtooth Factorial Topic Embeddings Guided Gamma Belief Network [49.458250193768826]
本稿では,文書の深部生成モデルであるGBNのソートゥース要素埋め込みについて述べる。
単語も話題も同じ次元の埋め込みベクトルとして表現される。
我々のモデルは、より深い解釈可能なトピックを抽出する他のニューラルネットワークモデルよりも優れています。
論文 参考訳(メタデータ) (2021-06-30T10:14:57Z) - Feature Weighted Non-negative Matrix Factorization [92.45013716097753]
本稿では,FNMF(Feature weighted Non- negative Matrix Factorization)を提案する。
FNMFはその重要性に応じて特徴の重みを適応的に学習する。
提案する最適化アルゴリズムを用いて効率的に解くことができる。
論文 参考訳(メタデータ) (2021-03-24T21:17:17Z) - Supervised Quantile Normalization for Low-rank Matrix Approximation [50.445371939523305]
我々は、$X$ の値と $UV$ の値を行ワイズで操作できる量子正規化演算子のパラメータを学習し、$X$ の低ランク表現の質を改善する。
本稿では,これらの手法が合成およびゲノムデータセットに適用可能であることを実証する。
論文 参考訳(メタデータ) (2020-02-08T21:06:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。