論文の概要: A comparison of correspondence analysis with PMI-based word embedding methods
- arxiv url: http://arxiv.org/abs/2405.20895v2
- Date: Fri, 08 Nov 2024 09:35:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:52:35.284867
- Title: A comparison of correspondence analysis with PMI-based word embedding methods
- Title(参考訳): PMIを用いた単語埋め込み手法による対応解析の比較
- Authors: Qianqian Qi, Ayoub Bagheri, David J. Hessen, Peter G. M. van der Heijden,
- Abstract要約: 対応解析(CA)は,PMI行列の重み付け係数化に数学的に近いことを示す。
また、単語コンテキスト行列の分解に成功しているCAの変種も提示する。
CA-およびPMI法とBERT法を比較したところ、ROOT-CAとROOTROOT-CAの総合的な結果はPMI法に比べてわずかに優れ、BERTと競合することがわかった。
- 参考スコア(独自算出の注目度): 1.8325214241179357
- License:
- Abstract: Popular word embedding methods such as GloVe and Word2Vec are related to the factorization of the pointwise mutual information (PMI) matrix. In this paper, we link correspondence analysis (CA) to the factorization of the PMI matrix. CA is a dimensionality reduction method that uses singular value decomposition (SVD), and we show that CA is mathematically close to the weighted factorization of the PMI matrix. In addition, we present variants of CA that turn out to be successful in the factorization of the word-context matrix, i.e. CA applied to a matrix where the entries undergo a square-root transformation (ROOT-CA) and a root-root transformation (ROOTROOT-CA). While this study focuses on traditional static word embedding methods, to extend the contribution of this paper, we also include a comparison of transformer-based encoder BERT, i.e. contextual word embedding, with these traditional methods. An empirical comparison among CA- and PMI-based methods as well as BERT shows that overall results of ROOT-CA and ROOTROOT-CA are slightly better than those of the PMI-based methods and are competitive with BERT.
- Abstract(参考訳): GloVeやWord2Vecのような一般的な単語埋め込み手法は、ポイントワイド相互情報(PMI)行列の分解に関係している。
本稿では、PMI行列の分解と対応解析(CA)をリンクする。
CA は特異値分解 (SVD) を用いる次元減少法であり, 数学的に PMI 行列の重み付き分解に近接していることを示す。
さらに,二乗根変換 (ROOT-CA) および根根変換 (ROOTROOT-CA) を行う行列に対して,単語コンテキスト行列の分解に成功しているCAの変種を示す。
本研究は,従来の静的単語埋め込み手法に焦点をあてる一方で,変換器を用いたエンコーダBERT(文脈単語埋め込み)と従来の手法との比較も含む。
CA-およびPMI法とBERT法を比較したところ、ROOT-CAとROOTROOT-CAの総合的な結果はPMI法に比べてわずかに優れ、BERTと競合することがわかった。
関連論文リスト
- Understanding Matrix Function Normalizations in Covariance Pooling through the Lens of Riemannian Geometry [63.694184882697435]
グローバル共分散プーリング(GCP)は、高レベルの表現の2階統計を利用して、ディープニューラルネットワーク(DNN)の性能を向上させることが実証されている。
論文 参考訳(メタデータ) (2024-07-15T07:11:44Z) - Synergistic eigenanalysis of covariance and Hessian matrices for enhanced binary classification [72.77513633290056]
本稿では, 学習モデルを用いて評価したヘッセン行列をトレーニングセットで評価した共分散行列の固有解析と, 深層学習モデルで評価したヘッセン行列を組み合わせた新しい手法を提案する。
本手法は複雑なパターンと関係を抽出し,分類性能を向上する。
論文 参考訳(メタデータ) (2024-02-14T16:10:42Z) - Unitary Approximate Message Passing for Matrix Factorization [90.84906091118084]
行列分解 (MF) を一定の制約で考慮し, 様々な分野の応用を見いだす。
我々は,効率の良いメッセージパッシング実装であるUAMPMFを用いて,MFに対するベイズ的アプローチを開発する。
UAMPMFは、回復精度、ロバスト性、計算複雑性の観点から、最先端のアルゴリズムを著しく上回ることを示す。
論文 参考訳(メタデータ) (2022-07-31T12:09:32Z) - Distributed Robust Principal Analysis [0.0]
分散環境でのロバストな主成分分析問題について検討する。
DCF-PCAと呼ばれるコンセンサス因数分解に基づく最初の分散ロバストな主解析アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-24T05:45:07Z) - Fast Differentiable Matrix Square Root and Inverse Square Root [65.67315418971688]
微分可能な行列平方根と逆平方根を計算するためのより効率的な2つの変種を提案する。
前方伝搬には, Matrix Taylor Polynomial (MTP) を用いる方法と, Matrix Pad'e Approximants (MPA) を使用する方法がある。
一連の数値実験により、両方の手法がSVDやNSの繰り返しと比較してかなりスピードアップすることが示された。
論文 参考訳(メタデータ) (2022-01-29T10:00:35Z) - Dictionary-based Low-Rank Approximations and the Mixed Sparse Coding
problem [7.132368785057316]
本稿では、LASSOに基づく効率的なMSC解法を用いて、辞書に基づく行列分解と正準多進分解を計算する方法を示す。
超スペクトル画像処理と化学計測の文脈における辞書に基づく行列分解と正準多進分解の計算に、LASSOに基づく効率的なMSC解法を適用する方法を示す。
論文 参考訳(メタデータ) (2021-11-24T10:32:48Z) - Estimating Average Treatment Effects with Support Vector Machines [77.34726150561087]
サポートベクターマシン(SVM)は、機械学習文献で最も人気のある分類アルゴリズムの1つです。
我々はsvmをカーネルベースの重み付け手順として適用し,治療群と制御群の最大平均差を最小化する。
このトレードオフから生じる因果効果推定のバイアスを特徴づけ、提案されたSVM手順と既存のカーネルバランシング手法を結びつけます。
論文 参考訳(メタデータ) (2021-02-23T20:22:56Z) - Spike and slab Bayesian sparse principal component analysis [0.6599344783327054]
本稿では,パラメータ拡張座標の漸近変動推論(PX-CAVI)アルゴリズムを提案する。
PX-CAVIアルゴリズムは2つのSPCA手法より優れていることを示す。
このアルゴリズムは肺がん遺伝子発現データセットの研究に応用される。
論文 参考訳(メタデータ) (2021-01-30T20:28:30Z) - Improved Dimensionality Reduction of various Datasets using Novel
Multiplicative Factoring Principal Component Analysis (MPCA) [0.0]
本稿では,従来のPCA手法である乗算因子分解主成分分析の改良について述べる。
従来のPCAに対するMPCAの利点は、乗算器を通して発生空間にペナルティを課すことで、射影の探索において、アウトレーヤの効果を無視できることである。
論文 参考訳(メタデータ) (2020-09-25T12:30:15Z) - Exact and Approximation Algorithms for Sparse PCA [1.7640556247739623]
本稿では,MISDP(MISDP)とMISDP(MISDP)について述べる。
次に、それらの連続緩和値の理論的最適性ギャップを分析し、それらが最先端の値よりも強いことを証明する。
市販の解法は一般にMISDPを解くのが難しいため,MISDPと同等の大きさのMILP(mixed-integer linear program)を用いてSPCAを任意の精度で近似する。
論文 参考訳(メタデータ) (2020-08-28T02:07:08Z) - Repulsive Mixture Models of Exponential Family PCA for Clustering [127.90219303669006]
指数関数型家族主成分分析(EPCA)の混合拡張は、従来のEPCAよりもデータ分布に関する構造情報を符号化するように設計された。
従来のEPCAの混合は、モデルの冗長性、すなわち混合成分間の重なりが問題であり、データクラスタリングの曖昧さを引き起こす可能性がある。
本稿では, 混合成分間での反発性増感前処理を導入し, ベイズ式に分散EPCA混合(DEPCAM)モデルを開発した。
論文 参考訳(メタデータ) (2020-04-07T04:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。