論文の概要: On the Emergence of Linear Analogies in Word Embeddings
- arxiv url: http://arxiv.org/abs/2505.18651v1
- Date: Sat, 24 May 2025 11:42:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.568007
- Title: On the Emergence of Linear Analogies in Word Embeddings
- Title(参考訳): 単語埋め込みにおける線形アナロジーの出現について
- Authors: Daniel J. Korchinski, Dhruva Karkada, Yasaman Bahri, Matthieu Wyart,
- Abstract要約: Word2VecやGloVeのようなモデルは、テキストコーパスで$i$と$j$の単語の共起確率$P(i,j)$に基づいて単語埋め込みを構築する。
本稿では、単語を二項意味属性で定義し、共起確率を属性に基づく相互作用から導出する理論生成モデルを提案する。
- 参考スコア(独自算出の注目度): 5.440589713820591
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Models such as Word2Vec and GloVe construct word embeddings based on the co-occurrence probability $P(i,j)$ of words $i$ and $j$ in text corpora. The resulting vectors $W_i$ not only group semantically similar words but also exhibit a striking linear analogy structure -- for example, $W_{\text{king}} - W_{\text{man}} + W_{\text{woman}} \approx W_{\text{queen}}$ -- whose theoretical origin remains unclear. Previous observations indicate that this analogy structure: (i) already emerges in the top eigenvectors of the matrix $M(i,j) = P(i,j)/P(i)P(j)$, (ii) strengthens and then saturates as more eigenvectors of $M (i, j)$, which controls the dimension of the embeddings, are included, (iii) is enhanced when using $\log M(i,j)$ rather than $M(i,j)$, and (iv) persists even when all word pairs involved in a specific analogy relation (e.g., king-queen, man-woman) are removed from the corpus. To explain these phenomena, we introduce a theoretical generative model in which words are defined by binary semantic attributes, and co-occurrence probabilities are derived from attribute-based interactions. This model analytically reproduces the emergence of linear analogy structure and naturally accounts for properties (i)-(iv). It can be viewed as giving fine-grained resolution into the role of each additional embedding dimension. It is robust to various forms of noise and agrees well with co-occurrence statistics measured on Wikipedia and the analogy benchmark introduced by Mikolov et al.
- Abstract(参考訳): Word2VecやGloVeのようなモデルは、テキストコーパスで$i$と$j$の単語の共起確率$P(i,j)$に基づいて単語埋め込みを構築する。
例えば、$W_{\text{king}} - W_{\text{man}} + W_{\text{woman}} \approx W_{\text{queen}}$ -- 理論的な起源が不明である。
以前の観測では、この類似構造が示されていた。
(i) は行列 $M(i,j) = P(i,j)/P のトップ固有ベクトルに既に現れる
(i)P
(j)$,
(ii) は、M (i) の固有ベクトルとして強化され、飽和する。
j) 埋め込みの寸法を制御する$は、含められる。
(iii)$M(i,j)$ではなく$\log M(i,j)$を使用すると拡張され、
(iv) 特定の類似関係(例えば、王女、男女)に関わる全ての単語対がコーパスから取り除かれる場合でも、持続する。
これらの現象を説明するために、二項意味属性によって単語が定義され、共起確率が属性に基づく相互作用から導出される理論生成モデルを導入する。
このモデルは線形類似構造の出現を解析的に再現し、性質を自然に説明する
(i)-
(4)。
これは、追加の埋め込み次元の役割に対するきめ細かい分解を与えると見なすことができる。
様々な種類のノイズに対して堅牢であり、ウィキペディアで測定された共起統計や、Mikolovらによって導入された類似のベンチマークとよく一致している。
関連論文リスト
- Bivariate Matrix-valued Linear Regression (BMLR): Finite-sample performance under Identifiability and Sparsity Assumptions [0.0]
行列値線形回帰モデルでは, mathbbRn×p$の$T$応答$(Y_t)_t=1Tと, mathbbRm×q$の予測子$(X_t)_t=1Tを推定する。
最適化のない明示的な推定器を提案し、その性能を定量化するために非漸近収束率を確立する。
論文 参考訳(メタデータ) (2024-12-23T18:03:34Z) - Analysing heavy-tail properties of Stochastic Gradient Descent by means of Stochastic Recurrence Equations [0.0]
近年の研究では、グラディエント蛍光(SGD)の重いテール特性が再帰の確率的枠組みで研究されている。
我々は、引用された論文のいくつかのオープンな質問に答え、既約確率 (i-p) 行列の理論を適用して結果を拡張する。
論文 参考訳(メタデータ) (2024-03-20T13:39:19Z) - Computational-Statistical Gaps in Gaussian Single-Index Models [77.1473134227844]
単次元モデル(Single-Index Models)は、植木構造における高次元回帰問題である。
我々は,統計的クエリ (SQ) と低遅延多項式 (LDP) フレームワークの両方において,計算効率のよいアルゴリズムが必ずしも$Omega(dkstar/2)$サンプルを必要とすることを示した。
論文 参考訳(メタデータ) (2024-03-08T18:50:19Z) - Repeated Observations for Classification [0.2676349883103404]
繰り返し観測を行った結果,非パラメトリック分類の問題について検討した。
本分析では, 名目密度によるロバスト検出, プロトタイプ分類, 線形変換, 線形分類, スケーリングなどのモデルについて検討する。
論文 参考訳(メタデータ) (2023-07-19T10:50:36Z) - Replicable Clustering [57.19013971737493]
我々は,統計学的な$k$-medians,統計学的な$k$-means,統計学的な$k$-centers問題のアルゴリズムをブラックボックス方式で近似ルーチンを用いて提案する。
理論的結果を検証するブラックボックスとしてsklearnの$k$-means++実装を用いた2次元合成分布の実験も行っている。
論文 参考訳(メタデータ) (2023-02-20T23:29:43Z) - Near-optimal fitting of ellipsoids to random points [68.12685213894112]
楕円体をランダムな点に合わせるという基本的な問題は、低ランク行列分解、独立成分分析、主成分分析に関係している。
我々はこの予想を、ある$n = Omega(, d2/mathrmpolylog(d))$ に対する適合楕円体を構成することで対数的因子まで解決する。
我々の証明は、ある非標準確率行列の便利な分解を用いて、サンダーソン等最小二乗構成の実現可能性を示す。
論文 参考訳(メタデータ) (2022-08-19T18:00:34Z) - On the Equivalence of Causal Models: A Category-Theoretic Approach [0.0]
離散変数上の異なるが同型な有向非巡回グラフを持つ因果モデルの同値性を決定するための基準を開発する。
因果モデルの同値性は、2つのそのような関手の間の自然な変換や同型によって定義される。
あるモデルが別のモデルの$Phi$-abstractionである場合、前者の介入は一貫して後者のモデルに変換される。
論文 参考訳(メタデータ) (2022-01-18T13:43:06Z) - When Random Tensors meet Random Matrices [50.568841545067144]
本稿では,ガウス雑音を伴う非対称次数-$d$スパイクテンソルモデルについて検討する。
検討したモデルの解析は、等価なスパイクされた対称テクシットブロック-ワイドランダム行列の解析に起因していることを示す。
論文 参考訳(メタデータ) (2021-12-23T04:05:01Z) - Stochastic behavior of outcome of Schur-Weyl duality measurement [45.41082277680607]
我々は、$n$ qubits上のシュル=ワイル双対性に基づく分解によって定義される測定に焦点をあてる。
我々は、$n$が無限大に進むとき、中心極限の一種を含む様々な種類の分布を導出する。
論文 参考訳(メタデータ) (2021-04-26T15:03:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。