論文の概要: Supervised Understanding of Word Embeddings
- arxiv url: http://arxiv.org/abs/2006.13299v1
- Date: Tue, 23 Jun 2020 20:13:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 21:50:47.355194
- Title: Supervised Understanding of Word Embeddings
- Title(参考訳): 単語埋め込みの監督的理解
- Authors: Halid Ziya Yerebakan, Parmeet Bhatia, Yoshihisa Shinagawa
- Abstract要約: 単語埋め込みにおける線形キーワードレベル分類器の形で教師付きプロジェクションを得た。
我々は,本手法が元の埋め込み次元の解釈可能な投影を生成することを示した。
- 参考スコア(独自算出の注目度): 1.160208922584163
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Pre-trained word embeddings are widely used for transfer learning in natural
language processing. The embeddings are continuous and distributed
representations of the words that preserve their similarities in compact
Euclidean spaces. However, the dimensions of these spaces do not provide any
clear interpretation. In this study, we have obtained supervised projections in
the form of the linear keyword-level classifiers on word embeddings. We have
shown that the method creates interpretable projections of original embedding
dimensions. Activations of the trained classifier nodes correspond to a subset
of the words in the vocabulary. Thus, they behave similarly to the dictionary
features while having the merit of continuous value output. Additionally, such
dictionaries can be grown iteratively with multiple rounds by adding expert
labels on top-scoring words to an initial collection of the keywords. Also, the
same classifiers can be applied to aligned word embeddings in other languages
to obtain corresponding dictionaries. In our experiments, we have shown that
initializing higher-order networks with these classifier weights gives more
accurate models for downstream NLP tasks. We further demonstrate the usefulness
of supervised dimensions in revealing the polysemous nature of a keyword of
interest by projecting it's embedding using learned classifiers in different
sub-spaces.
- Abstract(参考訳): 事前学習された単語埋め込みは、自然言語処理における伝達学習に広く用いられている。
埋め込みは、コンパクトユークリッド空間においてそれらの類似性を保った単語の連続かつ分散表現である。
しかし、これらの空間の次元は明確な解釈を与えない。
本研究では,単語埋め込みにおける線形キーワードレベル分類器の形で教師付き投影を行う。
我々は,本手法が元の埋め込み次元の解釈可能な投影を生成することを示した。
訓練された分類器ノードのアクティベーションは、語彙内の単語のサブセットに対応する。
したがって、連続的な値出力の利点を持ちながら、辞書の特徴と同様に振る舞う。
さらに、これらの辞書は、キーワードの最初のコレクションに、トップスコーリングワードに専門家ラベルを追加することで、複数のラウンドで反復的に成長することができる。
また、他の言語の単語埋め込みに同じ分類器を適用して対応する辞書を得ることもできる。
実験により,これらの分類器重み付き高次ネットワークの初期化により,下流NLPタスクのより正確なモデルが得られた。
さらに、学習した分類器を異なる部分空間に埋め込むことにより、興味のあるキーワードの多文性を明らかにするための教師付き次元の有用性を示す。
関連論文リスト
- Tomato, Tomahto, Tomate: Measuring the Role of Shared Semantics among Subwords in Multilingual Language Models [88.07940818022468]
エンコーダのみの多言語言語モデル(mLM)におけるサブワード間の共有セマンティクスの役割を測る第一歩を踏み出した。
意味的に類似したサブワードとその埋め込みをマージして「意味トークン」を形成する。
グループ化されたサブワードの検査では 様々な意味的類似性を示します
論文 参考訳(メタデータ) (2024-11-07T08:38:32Z) - Multi hash embeddings in spaCy [1.6790532021482656]
spaCyは、単語の複数埋め込み表現を生成する機械学習システムである。
SpaCyのデフォルトの埋め込み層は、ハッシュ埋め込み層である。
この技術レポートでは、いくつかの歴史を概説し、paCyに埋め込み手法を詳しく紹介します。
論文 参考訳(メタデータ) (2022-12-19T06:03:04Z) - CCPrefix: Counterfactual Contrastive Prefix-Tuning for Many-Class
Classification [57.62886091828512]
多クラス分類のための新しいプレフィックスチューニング手法であるCCPrefixを提案する。
基本的に、ラベル空間における実数対から派生したインスタンス依存の軟式接頭辞は、多クラス分類における言語動詞化を補完するために利用される。
論文 参考訳(メタデータ) (2022-11-11T03:45:59Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Extending Multi-Sense Word Embedding to Phrases and Sentences for
Unsupervised Semantic Applications [34.71597411512625]
本稿では,テキスト列(句または文)に対して,それぞれのシーケンスをコードブック埋め込みの異なる集合で表現する新しい埋め込み手法を提案する。
提案手法は,教師なし文の類似性と抽出要約ベンチマークの性能を大幅に改善することを示す。
論文 参考訳(メタデータ) (2021-03-29T04:54:28Z) - SemGloVe: Semantic Co-occurrences for GloVe from BERT [55.420035541274444]
GloVeは単語共起行列からの統計情報を利用して単語埋め込みを学ぶ。
BERTから静的なGloVeワード埋め込みに意味的共起を蒸留するSemGloVeを提案します。
論文 参考訳(メタデータ) (2020-12-30T15:38:26Z) - PBoS: Probabilistic Bag-of-Subwords for Generalizing Word Embedding [16.531103175919924]
単語の埋め込みを一般化する作業について検討する。
有限語彙上の事前訓練された単語ベクトルの集合が与えられた場合、その目標は語彙外単語に対する埋め込みベクトルを予測することである。
サブワードセグメント化を同時にモデル化し,サブワードをベースとした合成単語の埋め込みを計算できるモデルを提案する。
論文 参考訳(メタデータ) (2020-10-21T08:11:08Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Using Holographically Compressed Embeddings in Question Answering [0.0]
本研究では,事前学習した埋め込みのホログラフィック圧縮を用いてトークン,そのパート・オブ・音声,名前付きエンティティタイプを表現する。
この実装は、修正された質問応答の繰り返しディープラーニングネットワークにおいて、意味的関係が保存され、高い性能が得られることを示す。
論文 参考訳(メタデータ) (2020-07-14T18:29:49Z) - Comparative Analysis of Word Embeddings for Capturing Word Similarities [0.0]
分散言語表現は、様々な自然言語処理タスクにおいて、言語表現において最も広く使われている技術となっている。
ディープラーニング技術に基づく自然言語処理モデルのほとんどは、単語埋め込みと呼ばれる、すでに訓練済みの分散単語表現を使用している。
適切な単語の埋め込みを選択することは 複雑な作業です なぜなら、投影された埋め込み空間は 人間にとって直感的ではないからです
論文 参考訳(メタデータ) (2020-05-08T01:16:03Z) - Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies [60.285091454321055]
我々は,アンカー埋め込みとスパース変換行列の小さな組を学習する,単純で効率的な埋め込みアルゴリズムを設計する。
テキスト分類、言語モデリング、映画レコメンデーションのベンチマークでは、ANTは大きな語彙サイズに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-03-18T13:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。