論文の概要: A Rule-based/BPSO Approach to Produce Low-dimensional Semantic Basis
Vectors Set
- arxiv url: http://arxiv.org/abs/2111.12802v1
- Date: Wed, 24 Nov 2021 21:23:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-29 17:22:44.571324
- Title: A Rule-based/BPSO Approach to Produce Low-dimensional Semantic Basis
Vectors Set
- Title(参考訳): ルールベース/BPSOによる低次元意味基底集合の生成
- Authors: Atefe Pakzad, Morteza Analoui
- Abstract要約: 明示的な意味ベクトルでは、各次元は単語に対応するので、単語ベクトルは解釈可能である。
本研究では,低次元の明示的意味ベクトルを得るための新しい手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We intend to generate low-dimensional explicit distributional semantic
vectors. In explicit semantic vectors, each dimension corresponds to a word, so
word vectors are interpretable. In this research, we propose a new approach to
obtain low-dimensional explicit semantic vectors. First, the proposed approach
considers the three criteria Word Similarity, Number of Zero, and Word
Frequency as features for the words in a corpus. Then, we extract some rules
for obtaining the initial basis words using a decision tree that is drawn based
on the three features. Second, we propose a binary weighting method based on
the Binary Particle Swarm Optimization algorithm that obtains N_B = 1000
context words. We also use a word selection method that provides N_S = 1000
context words. Third, we extract the golden words of the corpus based on the
binary weighting method. Then, we add the extracted golden words to the context
words that are selected by the word selection method as the golden context
words. We use the ukWaC corpus for constructing the word vectors. We use MEN,
RG-65, and SimLex-999 test sets to evaluate the word vectors. We report the
results compared to a baseline that uses 5k most frequent words in the corpus
as context words. The baseline method uses a fixed window to count the
co-occurrences. We obtain the word vectors using the 1000 selected context
words together with the golden context words. Our approach compared to the
Baseline method increases the Spearman correlation coefficient for the MEN,
RG-65, and SimLex-999 test sets by 4.66%, 14.73%, and 1.08%, respectively.
- Abstract(参考訳): 我々は低次元の明示的な分布意味ベクトルを生成する。
明示的な意味ベクトルでは、各次元は単語に対応するので、単語ベクトルは解釈可能である。
本研究では,低次元の明示的意味ベクトルを得るための新しい手法を提案する。
まず,提案手法では,コーパス中の単語の特徴として,単語の類似度,ゼロ数,単語頻度の3つの基準を考察する。
そして,この3つの特徴に基づいて抽出された決定木を用いて,最初の基本語を得るためのルールを抽出する。
第二に,N_B = 1000文脈語を抽出するバイナリ粒子群最適化アルゴリズムに基づく二分重み付け手法を提案する。
また、N_S = 1000の文脈語を提供する単語選択法を用いる。
第3に、二分重み付け法に基づいて、コーパスの黄金語を抽出する。
そして,抽出した黄金の単語を,単語選択法で選択した文脈語に黄金の文脈語として付加する。
我々は ukWaC コーパスを用いて単語ベクトルを構築する。
単語ベクトルの評価には men, rg-65, simlex-999 テストセットを用いた。
その結果,コーパス内で最も頻繁な単語を文脈語として使用するベースラインと比較した。
ベースラインメソッドは固定ウィンドウを使用して共起数をカウントする。
選択された1000のコンテキストワードとゴールデンコンテキストワードとを用いて単語ベクトルを得る。
ベースライン法と比較して,MEN,RG-65,SimLex-999テストセットのスピアマン相関係数は,それぞれ4.66%,14.73%,1.08%増加した。
関連論文リスト
- Contextualized Word Vector-based Methods for Discovering Semantic
Differences with No Training nor Word Alignment [17.229611956178818]
2つのコーパスに現れる単語の意味的差異を検出する手法を提案する。
キーとなる考え方は、意味のカバレッジはその平均語ベクトルのノルムに反映されるということである。
これらの利点は、原住民や非先住民のイングランドのコーパスや、歴史的コーパスにも見られる。
論文 参考訳(メタデータ) (2023-05-19T08:27:17Z) - Simple, Interpretable and Stable Method for Detecting Words with Usage
Change across Corpora [54.757845511368814]
2つの文体を比較し、その用法が異なる単語を探すという問題は、しばしばデジタル人文科学や計算社会科学において生じる。
これは一般に、各コーパスに単語の埋め込みを訓練し、ベクトル空間を整列させ、整列空間における余弦距離が大きい単語を探すことでアプローチされる。
本稿では,ベクトル空間アライメントを使わず,各単語の近傍を考慮した代替手法を提案する。
論文 参考訳(メタデータ) (2021-12-28T23:46:00Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - Deriving Word Vectors from Contextualized Language Models using
Topic-Aware Mention Selection [46.97185212695267]
本稿では,この基本戦略に従って単語表現を学習する手法を提案する。
我々は、文脈を符号化するワードベクトルの袋ではなく、文脈化された言語モデル(CLM)を利用する。
この単純な戦略は、単語埋め込みや既存のCLMベースの戦略よりも意味的特性をより予測し、高品質な単語ベクトルに繋がることを示す。
論文 参考訳(メタデータ) (2021-06-15T08:02:42Z) - WOVe: Incorporating Word Order in GloVe Word Embeddings [0.0]
単語をベクトルとして定義することで、機械学習アルゴリズムがテキストを理解し、そこから情報を抽出しやすくなります。
ワードベクトル表現は、単語同義語、単語類似、構文解析など、多くのアプリケーションで使われている。
論文 参考訳(メタデータ) (2021-05-18T15:28:20Z) - An Iterative Contextualization Algorithm with Second-Order Attention [0.40611352512781856]
文を構成する単語の表現をまとまりのある全体にまとめる方法について説明します。
私たちのアルゴリズムは、おそらくコンテキストの誤った値から始まり、手元のトークンに関してこの値を調整します。
私たちのモデルは、よく知られたテキスト分類タスクで強い結果を報告します。
論文 参考訳(メタデータ) (2021-03-03T05:34:50Z) - SemGloVe: Semantic Co-occurrences for GloVe from BERT [55.420035541274444]
GloVeは単語共起行列からの統計情報を利用して単語埋め込みを学ぶ。
BERTから静的なGloVeワード埋め込みに意味的共起を蒸留するSemGloVeを提案します。
論文 参考訳(メタデータ) (2020-12-30T15:38:26Z) - Robust and Consistent Estimation of Word Embedding for Bangla Language
by fine-tuning Word2Vec Model [1.2691047660244335]
単語ベクトルを学習するための word2vec モデルを解析し,バングラ語に最も効果的な単語埋め込みを提案する。
我々は,単語ベクトルをクラスタ化して,単語の関連性について固有の評価を行うとともに,ニュース記事の特徴として異なる単語埋め込みを用いる。
論文 参考訳(メタデータ) (2020-10-26T08:00:48Z) - Word Rotator's Distance [50.67809662270474]
テキスト類似性を評価する上での鍵となる原則は、単語のアライメントを考慮した2つのテキスト間の意味的重複度を測定することである。
単語ベクトルのノルムは単語の重要度によいプロキシであり、その角度は単語類似度によいプロキシであることを示す。
本稿では,まず単語ベクトルをノルムと方向に分解し,アライメントに基づく類似性を計算する手法を提案する。
論文 参考訳(メタデータ) (2020-04-30T17:48:42Z) - Lexical Sememe Prediction using Dictionary Definitions by Capturing
Local Semantic Correspondence [94.79912471702782]
セメムは人間の言語の最小の意味単位として定義されており、多くのNLPタスクで有用であることが証明されている。
本稿では,このようなマッチングを捕捉し,セメムを予測できるセメム対応プールモデルを提案する。
我々は,有名なSememe KB HowNetのモデルとベースライン手法を評価し,そのモデルが最先端のパフォーマンスを実現することを発見した。
論文 参考訳(メタデータ) (2020-01-16T17:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。