論文の概要: Intrinsic analysis for dual word embedding space models
- arxiv url: http://arxiv.org/abs/2012.00728v2
- Date: Sat, 5 Dec 2020 12:29:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-30 19:53:30.387938
- Title: Intrinsic analysis for dual word embedding space models
- Title(参考訳): 二重単語埋め込み空間モデルの固有解析
- Authors: Mohit Mayank
- Abstract要約: ウィンドウベースのWord2VecとカウントベースのGloveの2種類の古典的埋め込み手法を比較した。
全てのバリエーションを考慮し、広範囲な評価を行うため、意味、関連性、類似性評価のタスクに対して合計84の異なるモデルを比較した。
Gloveの場合、非デフォルトモデルは、すべての3つの評価タスクでパフォーマンスが向上する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent word embeddings techniques represent words in a continuous vector
space, moving away from the atomic and sparse representations of the past. Each
such technique can further create multiple varieties of embeddings based on
different settings of hyper-parameters like embedding dimension size, context
window size and training method. One additional variety appears when we
especially consider the Dual embedding space techniques which generate not one
but two-word embeddings as output. This gives rise to an interesting question -
"is there one or a combination of the two word embeddings variety, which works
better for a specific task?". This paper tries to answer this question by
considering all of these variations. Herein, we compare two classical embedding
methods belonging to two different methodologies - Word2Vec from window-based
and Glove from count-based. For an extensive evaluation after considering all
variations, a total of 84 different models were compared against semantic,
association and analogy evaluations tasks which are made up of 9 open-source
linguistics datasets. The final Word2vec reports showcase the preference of
non-default model for 2 out of 3 tasks. In case of Glove, non-default models
outperform in all 3 evaluation tasks.
- Abstract(参考訳): 最近の単語埋め込み技術は連続ベクトル空間における単語を表現しており、過去の原子とスパース表現から遠ざかっている。
それぞれのテクニックは、埋め込み次元サイズ、コンテキストウィンドウサイズ、トレーニングメソッドなど、さまざまなハイパーパラメータの設定に基づいて、複数の埋め込みを作成できる。
特に、二つの単語の埋め込みを出力として生成しないデュアル埋め込み空間技術を考えると、追加のバリエーションが現れる。
これは"2つの単語埋め込みのバラエティの1つか1つの組み合わせがあるか、それとも特定のタスクでうまく動作するか"という興味深い疑問を生じさせる。
本稿では,これらの変種をすべて考慮し,この疑問への回答を試みる。
本稿では,2つの異なる手法に属する古典的な埋め込み手法,すなわちウィンドウベースのWord2VecとカウントベースのGloveを比較した。
全てのバリエーションを考慮し、広範囲な評価を行うため、9つのオープンソース言語データセットからなる意味、関連性、類似性評価タスクに対して、84種類のモデルを比較した。
最後のWord2vecレポートでは、3つのタスクのうち2つの非デフォルトモデルが好まれている。
Gloveの場合、非デフォルトモデルは3つの評価タスクすべてでパフォーマンスが向上する。
関連論文リスト
- Explaining Datasets in Words: Statistical Models with Natural Language Parameters [66.69456696878842]
本稿では, クラスタリング, 時系列, 分類モデルなど, 自然言語の述語によってパラメータ化される統計モデル群を紹介する。
当社のフレームワークは、ユーザチャット対話の分類、時間の経過とともにどのように進化するかの特徴付け、一方の言語モデルが他方よりも優れているカテゴリを見つけることなど、幅広い問題に適用しています。
論文 参考訳(メタデータ) (2024-09-13T01:40:20Z) - FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers [55.2480439325792]
FUSEは、あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を、異なるトークン化器にまたがっても近似するアプローチである。
画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-08-09T02:16:37Z) - Word Embedding Dimension Reduction via Weakly-Supervised Feature Selection [34.217661429283666]
語彙が大きくなるにつれて、ベクトル空間の次元は増加し、それが膨大なモデルサイズに繋がる。
本稿では,単語埋め込み次元の減少について検討する。
本稿では,WordFS という機能選択手法を提案する。
論文 参考訳(メタデータ) (2024-07-17T06:36:09Z) - CountGD: Multi-Modal Open-World Counting [54.88804890463491]
本稿では,画像中のオープン語彙オブジェクトの数値化の一般化と精度の向上を目的とする。
本稿では,最初のオープンワールドカウントモデルであるCountGDを紹介した。
論文 参考訳(メタデータ) (2024-07-05T16:20:48Z) - A Comprehensive Analysis of Static Word Embeddings for Turkish [0.058520770038704165]
基本的には、非文脈的(静的)モデルと文脈的モデルである2種類の単語埋め込みモデルが存在する。
トルコ語における内在的・外在的評価設定における文脈的・非文脈的モデルの性能の比較と評価を行った。
分析の結果は、異なるタイプのNLPタスクにおける異なる埋め込みモデルの適合性に関する洞察を与える。
論文 参考訳(メタデータ) (2024-05-13T14:23:37Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - A Unified Model for Reverse Dictionary and Definition Modelling [7.353994554197792]
我々は、定義(逆辞書)から単語を推測し、与えられた単語(定義モデリング)を生成するために、二方向ニューラル辞書を訓練する。
本手法は,2つのタスクを同時に学習し,埋め込みによる未知語処理を行う。
単語や定義を共有層を通じて同じ表現空間にキャストし、そこから他の形式をマルチタスク形式で生成する。
論文 参考訳(メタデータ) (2022-05-09T23:52:39Z) - UniRE: A Unified Label Space for Entity Relation Extraction [67.53850477281058]
合同エンティティ関係抽出モデルでは、2つのサブタスクに対して2つの分離ラベル空間を設定する。
この設定は、エンティティとリレーション間の情報相互作用を妨げる可能性があると我々は主張する。
本研究では,2つのサブタスクのラベル空間における異なる処理を除去することを提案する。
論文 参考訳(メタデータ) (2021-07-09T08:09:37Z) - A Comparison of Word2Vec, HMM2Vec, and PCA2Vec for Malware
Classification [3.0969191504482247]
まず、マルウェア分類のコンテキスト内で複数の異なる単語埋め込み技術を検討します。
我々は,様々な家系のマルウェアサンプルに対するオプコードシーケンスに基づく特徴埋め込みを導出する。
これらの特徴埋め込みに基づいて,より優れた分類精度が得られることを示す。
論文 参考訳(メタデータ) (2021-03-07T14:41:18Z) - Robust and Consistent Estimation of Word Embedding for Bangla Language
by fine-tuning Word2Vec Model [1.2691047660244335]
単語ベクトルを学習するための word2vec モデルを解析し,バングラ語に最も効果的な単語埋め込みを提案する。
我々は,単語ベクトルをクラスタ化して,単語の関連性について固有の評価を行うとともに,ニュース記事の特徴として異なる単語埋め込みを用いる。
論文 参考訳(メタデータ) (2020-10-26T08:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。