論文の概要: Intrinsic analysis for dual word embedding space models
- arxiv url: http://arxiv.org/abs/2012.00728v2
- Date: Sat, 5 Dec 2020 12:29:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-30 19:53:30.387938
- Title: Intrinsic analysis for dual word embedding space models
- Title(参考訳): 二重単語埋め込み空間モデルの固有解析
- Authors: Mohit Mayank
- Abstract要約: ウィンドウベースのWord2VecとカウントベースのGloveの2種類の古典的埋め込み手法を比較した。
全てのバリエーションを考慮し、広範囲な評価を行うため、意味、関連性、類似性評価のタスクに対して合計84の異なるモデルを比較した。
Gloveの場合、非デフォルトモデルは、すべての3つの評価タスクでパフォーマンスが向上する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent word embeddings techniques represent words in a continuous vector
space, moving away from the atomic and sparse representations of the past. Each
such technique can further create multiple varieties of embeddings based on
different settings of hyper-parameters like embedding dimension size, context
window size and training method. One additional variety appears when we
especially consider the Dual embedding space techniques which generate not one
but two-word embeddings as output. This gives rise to an interesting question -
"is there one or a combination of the two word embeddings variety, which works
better for a specific task?". This paper tries to answer this question by
considering all of these variations. Herein, we compare two classical embedding
methods belonging to two different methodologies - Word2Vec from window-based
and Glove from count-based. For an extensive evaluation after considering all
variations, a total of 84 different models were compared against semantic,
association and analogy evaluations tasks which are made up of 9 open-source
linguistics datasets. The final Word2vec reports showcase the preference of
non-default model for 2 out of 3 tasks. In case of Glove, non-default models
outperform in all 3 evaluation tasks.
- Abstract(参考訳): 最近の単語埋め込み技術は連続ベクトル空間における単語を表現しており、過去の原子とスパース表現から遠ざかっている。
それぞれのテクニックは、埋め込み次元サイズ、コンテキストウィンドウサイズ、トレーニングメソッドなど、さまざまなハイパーパラメータの設定に基づいて、複数の埋め込みを作成できる。
特に、二つの単語の埋め込みを出力として生成しないデュアル埋め込み空間技術を考えると、追加のバリエーションが現れる。
これは"2つの単語埋め込みのバラエティの1つか1つの組み合わせがあるか、それとも特定のタスクでうまく動作するか"という興味深い疑問を生じさせる。
本稿では,これらの変種をすべて考慮し,この疑問への回答を試みる。
本稿では,2つの異なる手法に属する古典的な埋め込み手法,すなわちウィンドウベースのWord2VecとカウントベースのGloveを比較した。
全てのバリエーションを考慮し、広範囲な評価を行うため、9つのオープンソース言語データセットからなる意味、関連性、類似性評価タスクに対して、84種類のモデルを比較した。
最後のWord2vecレポートでは、3つのタスクのうち2つの非デフォルトモデルが好まれている。
Gloveの場合、非デフォルトモデルは3つの評価タスクすべてでパフォーマンスが向上する。
関連論文リスト
- Concrete Subspace Learning based Interference Elimination for Multi-task
Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。
本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:24:54Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - GDA: Generative Data Augmentation Techniques for Relation Extraction
Tasks [81.51314139202152]
本稿では,意味的一貫性と構文構造を両立させるために2つの相補的モジュールを用いるGDAという,関係テキスト専用の拡張手法を提案する。
低リソース環境下での3つのデータセットによる実験結果から,GDAはエム2.0%のF1改善をもたらすことが示された。
論文 参考訳(メタデータ) (2023-05-26T06:21:01Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - ProSiT! Latent Variable Discovery with PROgressive SImilarity Thresholds [35.09631990817093]
ProSiTは決定論的かつ解釈可能な手法であり、遅延次元の最適数を求める。
ほとんどの設定では、ProSiTはトピックのコヒーレンスと特異性の観点から他のメソッドにマッチするか、性能を上回ります。
論文 参考訳(メタデータ) (2022-10-26T14:52:44Z) - A Unified Model for Reverse Dictionary and Definition Modelling [7.353994554197792]
我々は、定義(逆辞書)から単語を推測し、与えられた単語(定義モデリング)を生成するために、二方向ニューラル辞書を訓練する。
本手法は,2つのタスクを同時に学習し,埋め込みによる未知語処理を行う。
単語や定義を共有層を通じて同じ表現空間にキャストし、そこから他の形式をマルチタスク形式で生成する。
論文 参考訳(メタデータ) (2022-05-09T23:52:39Z) - Cross-lingual Word Embeddings in Hyperbolic Space [31.888489552069146]
言語間単語の埋め込みは、複数の言語にわたる自然言語処理アプリケーションに適用することができる。
本稿では,双曲空間のポアンカー球モデルに適応する,単純かつ効果的な言語間言語Word2Vecモデルを提案する。
論文 参考訳(メタデータ) (2022-05-04T06:15:37Z) - UniRE: A Unified Label Space for Entity Relation Extraction [67.53850477281058]
合同エンティティ関係抽出モデルでは、2つのサブタスクに対して2つの分離ラベル空間を設定する。
この設定は、エンティティとリレーション間の情報相互作用を妨げる可能性があると我々は主張する。
本研究では,2つのサブタスクのラベル空間における異なる処理を除去することを提案する。
論文 参考訳(メタデータ) (2021-07-09T08:09:37Z) - A Comparison of Word2Vec, HMM2Vec, and PCA2Vec for Malware
Classification [3.0969191504482247]
まず、マルウェア分類のコンテキスト内で複数の異なる単語埋め込み技術を検討します。
我々は,様々な家系のマルウェアサンプルに対するオプコードシーケンスに基づく特徴埋め込みを導出する。
これらの特徴埋め込みに基づいて,より優れた分類精度が得られることを示す。
論文 参考訳(メタデータ) (2021-03-07T14:41:18Z) - Robust and Consistent Estimation of Word Embedding for Bangla Language
by fine-tuning Word2Vec Model [1.2691047660244335]
単語ベクトルを学習するための word2vec モデルを解析し,バングラ語に最も効果的な単語埋め込みを提案する。
我々は,単語ベクトルをクラスタ化して,単語の関連性について固有の評価を行うとともに,ニュース記事の特徴として異なる単語埋め込みを用いる。
論文 参考訳(メタデータ) (2020-10-26T08:00:48Z) - Multiplex Word Embeddings for Selectional Preference Acquisition [70.33531759861111]
単語間の様々な関係に応じて容易に拡張できる多重単語埋め込みモデルを提案する。
本モデルでは,不必要なスパース性を導入することなく,関係の異なる単語を効果的に識別することができる。
論文 参考訳(メタデータ) (2020-01-09T04:47:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。