論文の概要: WOVe: Incorporating Word Order in GloVe Word Embeddings
- arxiv url: http://arxiv.org/abs/2105.08597v1
- Date: Tue, 18 May 2021 15:28:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-19 17:08:16.578339
- Title: WOVe: Incorporating Word Order in GloVe Word Embeddings
- Title(参考訳): WOVe:GloVeワード埋め込みに単語順序を組み込む
- Authors: Mohammed Ibrahim, Susan Gauch, Tyler Gerth, Brandon Cox
- Abstract要約: 単語をベクトルとして定義することで、機械学習アルゴリズムがテキストを理解し、そこから情報を抽出しやすくなります。
ワードベクトル表現は、単語同義語、単語類似、構文解析など、多くのアプリケーションで使われている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Word vector representations open up new opportunities to extract useful
information from unstructured text. Defining a word as a vector made it easy
for the machine learning algorithms to understand a text and extract
information from. Word vector representations have been used in many
applications such word synonyms, word analogy, syntactic parsing, and many
others. GloVe, based on word contexts and matrix vectorization, is an
ef-fective vector-learning algorithm. It improves on previous vector-learning
algorithms. However, the GloVe model fails to explicitly consider the order in
which words appear within their contexts. In this paper, multiple methods of
incorporating word order in GloVe word embeddings are proposed. Experimental
results show that our Word Order Vector (WOVe) word embeddings approach
outperforms unmodified GloVe on the natural lan-guage tasks of analogy
completion and word similarity. WOVe with direct concatenation slightly
outperformed GloVe on the word similarity task, increasing average rank by 2%.
However, it greatly improved on the GloVe baseline on a word analogy task,
achieving an average 36.34% improvement in accuracy.
- Abstract(参考訳): 単語ベクトル表現は、構造化されていないテキストから有用な情報を抽出する新しい機会を開く。
単語をベクトルとして定義することで、機械学習アルゴリズムがテキストを理解して情報を抽出することが容易になった。
ワードベクトル表現は、単語同義語、単語類似、構文解析など、多くのアプリケーションで使われている。
GloVeは、単語コンテキストと行列ベクトル化に基づいて、エフェクティブなベクトル学習アルゴリズムである。
従来のベクトル学習アルゴリズムを改善する。
しかし、グローブモデルは文脈の中で単語が現れる順序を明示的に考慮しない。
本稿では,グローブワード埋め込みに単語順序を組み込む複数の手法を提案する。
実験の結果, 単語順ベクトル(WOVe)の単語埋め込みは, アナログ補完と単語類似性の自然なランゲージタスクにおいて, 未修正のGloVeよりも優れていることがわかった。
単語類似性タスクでは、直接結合性がわずかに優れており、平均的なランクが2%上昇している。
しかし、GloVeのベースラインでは単語類似タスクが大幅に改善され、平均36.34%の精度が向上した。
関連論文リスト
- Backpack Language Models [108.65930795825416]
Backpacksは、強力なモデリング性能と、解釈可能性と制御のためのインターフェースを組み合わせた、新しいニューラルアーキテクチャである。
学習のあと、感覚ベクトルが特殊化され、それぞれが単語の異なる側面を符号化することがわかった。
本稿では,感覚ベクトルに介入し,制御可能なテキスト生成とデバイアスを行うシンプルなアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-26T09:26:23Z) - Tsetlin Machine Embedding: Representing Words Using Logical Expressions [10.825099126920028]
本稿では,論理節を自己教師する自動エンコーダについて紹介する。
節は、"black"、"cup"、"hot"のような文脈的な単語からなり、"coffee"のような他の単語を定義する。
我々は,GLoVeを6つの分類タスクで上回り,いくつかの内在的および外在的ベンチマークに対する埋め込み手法の評価を行った。
論文 参考訳(メタデータ) (2023-01-02T15:02:45Z) - Simple, Interpretable and Stable Method for Detecting Words with Usage
Change across Corpora [54.757845511368814]
2つの文体を比較し、その用法が異なる単語を探すという問題は、しばしばデジタル人文科学や計算社会科学において生じる。
これは一般に、各コーパスに単語の埋め込みを訓練し、ベクトル空間を整列させ、整列空間における余弦距離が大きい単語を探すことでアプローチされる。
本稿では,ベクトル空間アライメントを使わず,各単語の近傍を考慮した代替手法を提案する。
論文 参考訳(メタデータ) (2021-12-28T23:46:00Z) - A Rule-based/BPSO Approach to Produce Low-dimensional Semantic Basis
Vectors Set [0.0]
明示的な意味ベクトルでは、各次元は単語に対応するので、単語ベクトルは解釈可能である。
本研究では,低次元の明示的意味ベクトルを得るための新しい手法を提案する。
論文 参考訳(メタデータ) (2021-11-24T21:23:43Z) - Deriving Word Vectors from Contextualized Language Models using
Topic-Aware Mention Selection [46.97185212695267]
本稿では,この基本戦略に従って単語表現を学習する手法を提案する。
我々は、文脈を符号化するワードベクトルの袋ではなく、文脈化された言語モデル(CLM)を利用する。
この単純な戦略は、単語埋め込みや既存のCLMベースの戦略よりも意味的特性をより予測し、高品質な単語ベクトルに繋がることを示す。
論文 参考訳(メタデータ) (2021-06-15T08:02:42Z) - SemGloVe: Semantic Co-occurrences for GloVe from BERT [55.420035541274444]
GloVeは単語共起行列からの統計情報を利用して単語埋め込みを学ぶ。
BERTから静的なGloVeワード埋め込みに意味的共起を蒸留するSemGloVeを提案します。
論文 参考訳(メタデータ) (2020-12-30T15:38:26Z) - Accelerating Text Mining Using Domain-Specific Stop Word Lists [57.76576681191192]
本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
論文 参考訳(メタデータ) (2020-11-18T17:42:32Z) - Robust and Consistent Estimation of Word Embedding for Bangla Language
by fine-tuning Word2Vec Model [1.2691047660244335]
単語ベクトルを学習するための word2vec モデルを解析し,バングラ語に最も効果的な単語埋め込みを提案する。
我々は,単語ベクトルをクラスタ化して,単語の関連性について固有の評価を行うとともに,ニュース記事の特徴として異なる単語埋め込みを用いる。
論文 参考訳(メタデータ) (2020-10-26T08:00:48Z) - Morphological Skip-Gram: Using morphological knowledge to improve word
representation [2.0129974477913457]
我々は,文字n-gramのFastTextバッグを単語形態素の袋に置き換えることで,単語埋め込みを訓練する新しい手法を提案する。
結果は、FastTextと比較して、競争力のあるパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-07-20T12:47:36Z) - Word Rotator's Distance [50.67809662270474]
テキスト類似性を評価する上での鍵となる原則は、単語のアライメントを考慮した2つのテキスト間の意味的重複度を測定することである。
単語ベクトルのノルムは単語の重要度によいプロキシであり、その角度は単語類似度によいプロキシであることを示す。
本稿では,まず単語ベクトルをノルムと方向に分解し,アライメントに基づく類似性を計算する手法を提案する。
論文 参考訳(メタデータ) (2020-04-30T17:48:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。