論文の概要: Principal Word Vectors
- arxiv url: http://arxiv.org/abs/2007.04629v1
- Date: Thu, 9 Jul 2020 08:29:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 04:15:47.476402
- Title: Principal Word Vectors
- Title(参考訳): 主語ベクトル
- Authors: Ali Basirat, Christian Hardmeier, Joakim Nivre
- Abstract要約: 単語をベクトル空間に埋め込むための主成分分析を一般化する。
主語ベクトルの拡散と識別性は他の単語埋め込み法よりも高いことを示す。
- 参考スコア(独自算出の注目度): 5.64434321651888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We generalize principal component analysis for embedding words into a vector
space. The generalization is made in two major levels. The first is to
generalize the concept of the corpus as a counting process which is defined by
three key elements vocabulary set, feature (annotation) set, and context. This
generalization enables the principal word embedding method to generate word
vectors with regard to different types of contexts and different types of
annotations provided for a corpus. The second is to generalize the
transformation step used in most of the word embedding methods. To this end, we
define two levels of transformations. The first is a quadratic transformation,
which accounts for different types of weighting over the vocabulary units and
contextual features. Second is an adaptive non-linear transformation, which
reshapes the data distribution to be meaningful to principal component
analysis. The effect of these generalizations on the word vectors is
intrinsically studied with regard to the spread and the discriminability of the
word vectors. We also provide an extrinsic evaluation of the contribution of
the principal word vectors on a word similarity benchmark and the task of
dependency parsing. Our experiments are finalized by a comparison between the
principal word vectors and other sets of word vectors generated with popular
word embedding methods. The results obtained from our intrinsic evaluation
metrics show that the spread and the discriminability of the principal word
vectors are higher than that of other word embedding methods. The results
obtained from the extrinsic evaluation metrics show that the principal word
vectors are better than some of the word embedding methods and on par with
popular methods of word embedding.
- Abstract(参考訳): 単語をベクトル空間に埋め込むための主成分分析を一般化する。
一般化は2つの大きなレベルで行われる。
1つ目は、コーパスの概念を3つのキー要素の語彙集合、特徴(注釈)集合、文脈によって定義される数え上げ過程として一般化することである。
この一般化により、コーパスに提供される異なる種類の文脈と異なるタイプのアノテーションに関して、主語埋め込み法がワードベクトルを生成することができる。
2つ目は、ほとんどの単語埋め込みメソッドで使われる変換ステップを一般化することである。
この目的のために、変換の2つのレベルを定義します。
1つは二次変換であり、語彙単位と文脈的特徴に対する異なる種類の重み付けを考慮に入れている。
2つ目は適応非線形変換であり、主成分分析に意味のあるデータ分布を再構成する。
これらの一般化が単語ベクトルに与える影響は、単語ベクトルの拡散と識別性に関して本質的に研究されている。
また,単語類似度ベンチマークにおける主語ベクトルの寄与度と係り受け解析のタスクについて,極端な評価を行う。
本実験は,一般的な単語埋め込み法で生成する主語ベクトルと他の単語ベクトル集合の比較によって最終化される。
その結果,主語ベクトルの拡散と判別性は,他の単語埋め込み法よりも高いことがわかった。
評価指標から得られた結果から, 主語ベクトルは, 単語埋め込み法より優れており, 一般的な単語埋め込み法と同等であることがわかった。
関連論文リスト
- Backpack Language Models [108.65930795825416]
Backpacksは、強力なモデリング性能と、解釈可能性と制御のためのインターフェースを組み合わせた、新しいニューラルアーキテクチャである。
学習のあと、感覚ベクトルが特殊化され、それぞれが単語の異なる側面を符号化することがわかった。
本稿では,感覚ベクトルに介入し,制御可能なテキスト生成とデバイアスを行うシンプルなアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-26T09:26:23Z) - Contextualized Word Vector-based Methods for Discovering Semantic
Differences with No Training nor Word Alignment [17.229611956178818]
2つのコーパスに現れる単語の意味的差異を検出する手法を提案する。
キーとなる考え方は、意味のカバレッジはその平均語ベクトルのノルムに反映されるということである。
これらの利点は、原住民や非先住民のイングランドのコーパスや、歴史的コーパスにも見られる。
論文 参考訳(メタデータ) (2023-05-19T08:27:17Z) - Describing Sets of Images with Textual-PCA [89.46499914148993]
画像の集合を意味的に記述し、単一の画像の属性とセット内のバリエーションの両方をキャプチャする。
我々の手順は原理成分分析と類似しており、射影ベクトルの役割を生成されたフレーズに置き換える。
論文 参考訳(メタデータ) (2022-10-21T17:10:49Z) - Simple, Interpretable and Stable Method for Detecting Words with Usage
Change across Corpora [54.757845511368814]
2つの文体を比較し、その用法が異なる単語を探すという問題は、しばしばデジタル人文科学や計算社会科学において生じる。
これは一般に、各コーパスに単語の埋め込みを訓練し、ベクトル空間を整列させ、整列空間における余弦距離が大きい単語を探すことでアプローチされる。
本稿では,ベクトル空間アライメントを使わず,各単語の近傍を考慮した代替手法を提案する。
論文 参考訳(メタデータ) (2021-12-28T23:46:00Z) - Deriving Word Vectors from Contextualized Language Models using
Topic-Aware Mention Selection [46.97185212695267]
本稿では,この基本戦略に従って単語表現を学習する手法を提案する。
我々は、文脈を符号化するワードベクトルの袋ではなく、文脈化された言語モデル(CLM)を利用する。
この単純な戦略は、単語埋め込みや既存のCLMベースの戦略よりも意味的特性をより予測し、高品質な単語ベクトルに繋がることを示す。
論文 参考訳(メタデータ) (2021-06-15T08:02:42Z) - WOVe: Incorporating Word Order in GloVe Word Embeddings [0.0]
単語をベクトルとして定義することで、機械学習アルゴリズムがテキストを理解し、そこから情報を抽出しやすくなります。
ワードベクトル表現は、単語同義語、単語類似、構文解析など、多くのアプリケーションで使われている。
論文 参考訳(メタデータ) (2021-05-18T15:28:20Z) - Robust and Consistent Estimation of Word Embedding for Bangla Language
by fine-tuning Word2Vec Model [1.2691047660244335]
単語ベクトルを学習するための word2vec モデルを解析し,バングラ語に最も効果的な単語埋め込みを提案する。
我々は,単語ベクトルをクラスタ化して,単語の関連性について固有の評価を行うとともに,ニュース記事の特徴として異なる単語埋め込みを用いる。
論文 参考訳(メタデータ) (2020-10-26T08:00:48Z) - Unsupervised Distillation of Syntactic Information from Contextualized
Word Representations [62.230491683411536]
我々は,ニューラルネットワーク表現における意味論と構造学の非教師なしの絡み合いの課題に取り組む。
この目的のために、構造的に類似しているが意味的に異なる文群を自動的に生成する。
我々は、我々の変換クラスタベクトルが、語彙的意味論ではなく構造的特性によって空間に現れることを実証する。
論文 参考訳(メタデータ) (2020-10-11T15:13:18Z) - Word Rotator's Distance [50.67809662270474]
テキスト類似性を評価する上での鍵となる原則は、単語のアライメントを考慮した2つのテキスト間の意味的重複度を測定することである。
単語ベクトルのノルムは単語の重要度によいプロキシであり、その角度は単語類似度によいプロキシであることを示す。
本稿では,まず単語ベクトルをノルムと方向に分解し,アライメントに基づく類似性を計算する手法を提案する。
論文 参考訳(メタデータ) (2020-04-30T17:48:42Z) - Generating Word and Document Embeddings for Sentiment Analysis [0.36525095710982913]
本稿では、文脈情報と教師付き情報と、辞書に現れる単語の一般的な意味表現を組み合わせる。
トルコの映画ドメインとTwitterデータセットである2つのコーパスに対して、ドメイン固有の感情ベクトルを誘導する。
これは我々のアプローチがクロスドメインであり、他の言語に移植可能であることを示している。
論文 参考訳(メタデータ) (2020-01-05T16:34:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。