論文の概要: A comparison of correspondence analysis with PMI-based word embedding methods
- arxiv url: http://arxiv.org/abs/2405.20895v2
- Date: Fri, 08 Nov 2024 09:35:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:52:35.284867
- Title: A comparison of correspondence analysis with PMI-based word embedding methods
- Title(参考訳): PMIを用いた単語埋め込み手法による対応解析の比較
- Authors: Qianqian Qi, Ayoub Bagheri, David J. Hessen, Peter G. M. van der Heijden,
- Abstract要約: 対応解析(CA)は,PMI行列の重み付け係数化に数学的に近いことを示す。
また、単語コンテキスト行列の分解に成功しているCAの変種も提示する。
CA-およびPMI法とBERT法を比較したところ、ROOT-CAとROOTROOT-CAの総合的な結果はPMI法に比べてわずかに優れ、BERTと競合することがわかった。
- 参考スコア(独自算出の注目度): 1.8325214241179357
- License:
- Abstract: Popular word embedding methods such as GloVe and Word2Vec are related to the factorization of the pointwise mutual information (PMI) matrix. In this paper, we link correspondence analysis (CA) to the factorization of the PMI matrix. CA is a dimensionality reduction method that uses singular value decomposition (SVD), and we show that CA is mathematically close to the weighted factorization of the PMI matrix. In addition, we present variants of CA that turn out to be successful in the factorization of the word-context matrix, i.e. CA applied to a matrix where the entries undergo a square-root transformation (ROOT-CA) and a root-root transformation (ROOTROOT-CA). While this study focuses on traditional static word embedding methods, to extend the contribution of this paper, we also include a comparison of transformer-based encoder BERT, i.e. contextual word embedding, with these traditional methods. An empirical comparison among CA- and PMI-based methods as well as BERT shows that overall results of ROOT-CA and ROOTROOT-CA are slightly better than those of the PMI-based methods and are competitive with BERT.
- Abstract(参考訳): GloVeやWord2Vecのような一般的な単語埋め込み手法は、ポイントワイド相互情報(PMI)行列の分解に関係している。
本稿では、PMI行列の分解と対応解析(CA)をリンクする。
CA は特異値分解 (SVD) を用いる次元減少法であり, 数学的に PMI 行列の重み付き分解に近接していることを示す。
さらに,二乗根変換 (ROOT-CA) および根根変換 (ROOTROOT-CA) を行う行列に対して,単語コンテキスト行列の分解に成功しているCAの変種を示す。
本研究は,従来の静的単語埋め込み手法に焦点をあてる一方で,変換器を用いたエンコーダBERT(文脈単語埋め込み)と従来の手法との比較も含む。
CA-およびPMI法とBERT法を比較したところ、ROOT-CAとROOTROOT-CAの総合的な結果はPMI法に比べてわずかに優れ、BERTと競合することがわかった。
関連論文リスト
- Fast Context-Biasing for CTC and Transducer ASR models with CTC-based Word Spotter [57.64003871384959]
この研究は、CTCベースのWord Spotterでコンテキストバイアスを高速化するための新しいアプローチを示す。
提案手法は,CTCログ確率をコンパクトなコンテキストグラフと比較し,潜在的なコンテキストバイアス候補を検出する。
その結果、FスコアとWERの同時改善により、文脈バイアス認識の大幅な高速化が示された。
論文 参考訳(メタデータ) (2024-06-11T09:37:52Z) - Cross-domain Chinese Sentence Pattern Parsing [67.1381983012038]
文パターン構造解析(SPS)は、主に言語教育に使用される構文解析法である。
既存のSPSは教科書のコーパスに大きく依存しており、クロスドメイン機能に欠ける。
本稿では,大規模言語モデル(LLM)を自己学習フレームワーク内で活用する革新的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T05:30:48Z) - Synergistic eigenanalysis of covariance and Hessian matrices for enhanced binary classification [72.77513633290056]
本稿では, 学習モデルを用いて評価したヘッセン行列をトレーニングセットで評価した共分散行列の固有解析と, 深層学習モデルで評価したヘッセン行列を組み合わせた新しい手法を提案する。
本手法は複雑なパターンと関係を抽出し,分類性能を向上する。
論文 参考訳(メタデータ) (2024-02-14T16:10:42Z) - A Bayesian Methodology for Estimation for Sparse Canonical Correlation [0.0]
標準相関解析(CCA)は、データセット間の関係を識別する統計手法である。
ScSCCAは、異なるデータモダリティ間の相互関係の堅牢なモデリングを目的とした、急速に発展する方法論分野である。
ベイズ無限因子モデルを用いて,ロバストな推定を実現する新しいSCSCCA手法を提案する。
論文 参考訳(メタデータ) (2023-10-30T15:14:25Z) - A Cognitive Study on Semantic Similarity Analysis of Large Corpora: A
Transformer-based Approach [0.0]
我々は,従来の技術とトランスフォーマー技術の両方を用いて,米国特許法とPhrase Matchingデータセットのセマンティック類似性解析とモデリングを行う。
実験の結果,従来の手法と比較して手法の性能が向上し,平均ピアソン相関スコアは0.79。
論文 参考訳(メタデータ) (2022-07-24T11:06:56Z) - Fast Differentiable Matrix Square Root and Inverse Square Root [65.67315418971688]
微分可能な行列平方根と逆平方根を計算するためのより効率的な2つの変種を提案する。
前方伝搬には, Matrix Taylor Polynomial (MTP) を用いる方法と, Matrix Pad'e Approximants (MPA) を使用する方法がある。
一連の数値実験により、両方の手法がSVDやNSの繰り返しと比較してかなりスピードアップすることが示された。
論文 参考訳(メタデータ) (2022-01-29T10:00:35Z) - A Comparison of Word2Vec, HMM2Vec, and PCA2Vec for Malware
Classification [3.0969191504482247]
まず、マルウェア分類のコンテキスト内で複数の異なる単語埋め込み技術を検討します。
我々は,様々な家系のマルウェアサンプルに対するオプコードシーケンスに基づく特徴埋め込みを導出する。
これらの特徴埋め込みに基づいて,より優れた分類精度が得られることを示す。
論文 参考訳(メタデータ) (2021-03-07T14:41:18Z) - Spike and slab Bayesian sparse principal component analysis [0.6599344783327054]
本稿では,パラメータ拡張座標の漸近変動推論(PX-CAVI)アルゴリズムを提案する。
PX-CAVIアルゴリズムは2つのSPCA手法より優れていることを示す。
このアルゴリズムは肺がん遺伝子発現データセットの研究に応用される。
論文 参考訳(メタデータ) (2021-01-30T20:28:30Z) - Deep Multimodal Fusion by Channel Exchanging [87.40768169300898]
本稿では,異なるモードのサブネットワーク間で動的にチャネルを交換するパラメータフリーマルチモーダル融合フレームワークを提案する。
このような交換プロセスの有効性は、畳み込みフィルタを共有してもBN層をモダリティで分離しておくことで保証される。
論文 参考訳(メタデータ) (2020-11-10T09:53:20Z) - Improved Dimensionality Reduction of various Datasets using Novel
Multiplicative Factoring Principal Component Analysis (MPCA) [0.0]
本稿では,従来のPCA手法である乗算因子分解主成分分析の改良について述べる。
従来のPCAに対するMPCAの利点は、乗算器を通して発生空間にペナルティを課すことで、射影の探索において、アウトレーヤの効果を無視できることである。
論文 参考訳(メタデータ) (2020-09-25T12:30:15Z) - Repulsive Mixture Models of Exponential Family PCA for Clustering [127.90219303669006]
指数関数型家族主成分分析(EPCA)の混合拡張は、従来のEPCAよりもデータ分布に関する構造情報を符号化するように設計された。
従来のEPCAの混合は、モデルの冗長性、すなわち混合成分間の重なりが問題であり、データクラスタリングの曖昧さを引き起こす可能性がある。
本稿では, 混合成分間での反発性増感前処理を導入し, ベイズ式に分散EPCA混合(DEPCAM)モデルを開発した。
論文 参考訳(メタデータ) (2020-04-07T04:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。