論文の概要: A comparison of correspondence analysis with PMI-based word embedding methods
- arxiv url: http://arxiv.org/abs/2405.20895v1
- Date: Fri, 31 May 2024 15:04:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 13:58:40.625850
- Title: A comparison of correspondence analysis with PMI-based word embedding methods
- Title(参考訳): PMIを用いた単語埋め込み手法による対応解析の比較
- Authors: Qianqian Qi, David J. Hessen, Peter G. M. van der Heijden,
- Abstract要約: 我々は、対応解析(CA)とポイントワイド相互情報(PMI)行列の分解を関連付ける。
本稿では,単語コンテキスト行列の分解に成功しているCAの変種について述べる。
実験により, ROOT-CAとROOT-CAの総合結果はPMI法に比べて若干良いことがわかった。
- 参考スコア(独自算出の注目度): 1.4166903080202968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Popular word embedding methods such as GloVe and Word2Vec are related to the factorization of the pointwise mutual information (PMI) matrix. In this paper, we link correspondence analysis (CA) to the factorization of the PMI matrix. CA is a dimensionality reduction method that uses singular value decomposition (SVD), and we show that CA is mathematically close to the weighted factorization of the PMI matrix. In addition, we present variants of CA that turn out to be successful in the factorization of the word-context matrix, i.e. CA applied to a matrix where the entries undergo a square-root transformation (ROOT-CA) and a root-root transformation (ROOTROOT-CA). An empirical comparison among CA- and PMI-based methods shows that overall results of ROOT-CA and ROOTROOT-CA are slightly better than those of the PMI-based methods.
- Abstract(参考訳): GloVeやWord2Vecのような一般的な単語埋め込み手法は、ポイントワイド相互情報(PMI)行列の分解に関係している。
本稿では、PMI行列の分解と対応解析(CA)をリンクする。
CA は特異値分解 (SVD) を用いた次元減少法であり, 数学的に PMI 行列の重み付き分解に近接していることを示す。
さらに,二乗根変換 (ROOT-CA) および根根変換 (ROOTROOT-CA) を行う行列に対して,単語コンテキスト行列の分解に成功しているCAの変種を示す。
実験により, ROOT-CAとROOTROOT-CAの総合成績はPMI法に比べて若干良いことがわかった。
関連論文リスト
- Fast Context-Biasing for CTC and Transducer ASR models with CTC-based Word Spotter [57.64003871384959]
この研究は、CTCベースのWord Spotterでコンテキストバイアスを高速化するための新しいアプローチを示す。
提案手法は,CTCログ確率をコンパクトなコンテキストグラフと比較し,潜在的なコンテキストバイアス候補を検出する。
その結果、FスコアとWERの同時改善により、文脈バイアス認識の大幅な高速化が示された。
論文 参考訳(メタデータ) (2024-06-11T09:37:52Z) - Cross-domain Chinese Sentence Pattern Parsing [67.1381983012038]
文パターン構造解析(SPS)は、主に言語教育に使用される構文解析法である。
既存のSPSは教科書のコーパスに大きく依存しており、クロスドメイン機能に欠ける。
本稿では,大規模言語モデル(LLM)を自己学習フレームワーク内で活用する革新的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T05:30:48Z) - Synergistic eigenanalysis of covariance and Hessian matrices for enhanced binary classification [72.77513633290056]
本稿では, 学習モデルを用いて評価したヘッセン行列をトレーニングセットで評価した共分散行列の固有解析と, 深層学習モデルで評価したヘッセン行列を組み合わせた新しい手法を提案する。
本手法は複雑なパターンと関係を抽出し,分類性能を向上する。
論文 参考訳(メタデータ) (2024-02-14T16:10:42Z) - A Bayesian Methodology for Estimation for Sparse Canonical Correlation [0.0]
標準相関解析(CCA)は、データセット間の関係を識別する統計手法である。
ScSCCAは、異なるデータモダリティ間の相互関係の堅牢なモデリングを目的とした、急速に発展する方法論分野である。
ベイズ無限因子モデルを用いて,ロバストな推定を実現する新しいSCSCCA手法を提案する。
論文 参考訳(メタデータ) (2023-10-30T15:14:25Z) - A Cognitive Study on Semantic Similarity Analysis of Large Corpora: A
Transformer-based Approach [0.0]
我々は,従来の技術とトランスフォーマー技術の両方を用いて,米国特許法とPhrase Matchingデータセットのセマンティック類似性解析とモデリングを行う。
実験の結果,従来の手法と比較して手法の性能が向上し,平均ピアソン相関スコアは0.79。
論文 参考訳(メタデータ) (2022-07-24T11:06:56Z) - Fast Differentiable Matrix Square Root and Inverse Square Root [65.67315418971688]
微分可能な行列平方根と逆平方根を計算するためのより効率的な2つの変種を提案する。
前方伝搬には, Matrix Taylor Polynomial (MTP) を用いる方法と, Matrix Pad'e Approximants (MPA) を使用する方法がある。
一連の数値実験により、両方の手法がSVDやNSの繰り返しと比較してかなりスピードアップすることが示された。
論文 参考訳(メタデータ) (2022-01-29T10:00:35Z) - A Comparison of Word2Vec, HMM2Vec, and PCA2Vec for Malware
Classification [3.0969191504482247]
まず、マルウェア分類のコンテキスト内で複数の異なる単語埋め込み技術を検討します。
我々は,様々な家系のマルウェアサンプルに対するオプコードシーケンスに基づく特徴埋め込みを導出する。
これらの特徴埋め込みに基づいて,より優れた分類精度が得られることを示す。
論文 参考訳(メタデータ) (2021-03-07T14:41:18Z) - Spike and slab Bayesian sparse principal component analysis [0.6599344783327054]
本稿では,パラメータ拡張座標の漸近変動推論(PX-CAVI)アルゴリズムを提案する。
PX-CAVIアルゴリズムは2つのSPCA手法より優れていることを示す。
このアルゴリズムは肺がん遺伝子発現データセットの研究に応用される。
論文 参考訳(メタデータ) (2021-01-30T20:28:30Z) - Deep Multimodal Fusion by Channel Exchanging [87.40768169300898]
本稿では,異なるモードのサブネットワーク間で動的にチャネルを交換するパラメータフリーマルチモーダル融合フレームワークを提案する。
このような交換プロセスの有効性は、畳み込みフィルタを共有してもBN層をモダリティで分離しておくことで保証される。
論文 参考訳(メタデータ) (2020-11-10T09:53:20Z) - Improved Dimensionality Reduction of various Datasets using Novel
Multiplicative Factoring Principal Component Analysis (MPCA) [0.0]
本稿では,従来のPCA手法である乗算因子分解主成分分析の改良について述べる。
従来のPCAに対するMPCAの利点は、乗算器を通して発生空間にペナルティを課すことで、射影の探索において、アウトレーヤの効果を無視できることである。
論文 参考訳(メタデータ) (2020-09-25T12:30:15Z) - Repulsive Mixture Models of Exponential Family PCA for Clustering [127.90219303669006]
指数関数型家族主成分分析(EPCA)の混合拡張は、従来のEPCAよりもデータ分布に関する構造情報を符号化するように設計された。
従来のEPCAの混合は、モデルの冗長性、すなわち混合成分間の重なりが問題であり、データクラスタリングの曖昧さを引き起こす可能性がある。
本稿では, 混合成分間での反発性増感前処理を導入し, ベイズ式に分散EPCA混合(DEPCAM)モデルを開発した。
論文 参考訳(メタデータ) (2020-04-07T04:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。