論文の概要: Blind signal decomposition of various word embeddings based on join and
individual variance explained
- arxiv url: http://arxiv.org/abs/2011.14496v1
- Date: Mon, 30 Nov 2020 01:36:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 07:35:16.619633
- Title: Blind signal decomposition of various word embeddings based on join and
individual variance explained
- Title(参考訳): 結合と個人差分に基づく各種単語埋め込みのブラインド信号分解
- Authors: Yikai Wang and Weijian Li
- Abstract要約: そこで本稿では,JIVEとJIVEを併用して,各種単語の組込みを結合成分と個別成分に分解する,新しい結合信号分離手法を提案する。
我々は,2vec,FastText,GLoVEの異なるコーパスと異なる次元で訓練を行った。
その結果,異なる単語の埋め込みを結合成分にマッピングすることにより,従来の単語埋め込みよりも低性能で感情性能が大幅に向上できることが判明した。
- 参考スコア(独自算出の注目度): 11.542392473831672
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, natural language processing (NLP) has become one of the most
important areas with various applications in human's life. As the most
fundamental task, the field of word embedding still requires more attention and
research. Currently, existing works about word embedding are focusing on
proposing novel embedding algorithms and dimension reduction techniques on
well-trained word embeddings. In this paper, we propose to use a novel joint
signal separation method - JIVE to jointly decompose various trained word
embeddings into joint and individual components. Through this decomposition
framework, we can easily investigate the similarity and difference among
different word embeddings. We conducted extensive empirical study on word2vec,
FastText and GLoVE trained on different corpus and with different dimensions.
We compared the performance of different decomposed components based on
sentiment analysis on Twitter and Stanford sentiment treebank. We found that by
mapping different word embeddings into the joint component, sentiment
performance can be greatly improved for the original word embeddings with lower
performance. Moreover, we found that by concatenating different components
together, the same model can achieve better performance. These findings provide
great insights into the word embeddings and our work offer a new of generating
word embeddings by fusing.
- Abstract(参考訳): 近年、自然言語処理(NLP)は、人間の生活に様々な応用をもたらす最も重要な分野の一つとなっている。
最も基本的なタスクとして、単語埋め込みの分野は依然としてより多くの注意と研究が必要である。
現在、単語埋め込みに関する既存の研究は、新しい埋め込みアルゴリズムとよく訓練された単語埋め込みにおける次元削減技術の提案に焦点を当てている。
本稿では,様々な訓練済み単語を結合成分と個別成分に分解する新しいジョイント信号分離法(jive)を提案する。
この分解フレームワークを通して、異なる単語埋め込み間の類似性と相違を簡単に調査できる。
我々は,2vec,FastText,GLoVEの異なるコーパスと異なる次元で訓練を行った。
我々はTwitterとスタンフォードの感情木バンクの感情分析に基づいて,異なる分解成分の性能を比較した。
その結果,異なる単語の埋め込みを結合成分にマッピングすることにより,従来の単語埋め込みよりも低性能で感情性能を大幅に向上できることがわかった。
さらに、異なるコンポーネントを結合することで、同じモデルがより良いパフォーマンスを達成できることが分かりました。
これらの発見は単語埋め込みに関する洞察を与え、我々の研究は単語埋め込みを生成する新しい方法を提供する。
関連論文リスト
- Relational Sentence Embedding for Flexible Semantic Matching [86.21393054423355]
文埋め込みの可能性を明らかにするための新しいパラダイムとして,文埋め込み(Sentence Embedding, RSE)を提案する。
RSEは文関係のモデル化に有効で柔軟性があり、一連の最先端の埋め込み手法より優れている。
論文 参考訳(メタデータ) (2022-12-17T05:25:17Z) - Retrofitting Multilingual Sentence Embeddings with Abstract Meaning
Representation [70.58243648754507]
抽象的意味表現(AMR)を用いた既存の多言語文の埋め込みを改善する新しい手法を提案する。
原文入力と比較すると、AMRは文の中核概念と関係を明確かつ曖昧に表す構造的意味表現である。
実験結果から,多言語文をAMRで埋め込むと,意味的類似性と伝達タスクの両方において,最先端の性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-10-18T11:37:36Z) - Human-in-the-Loop Refinement of Word Embeddings [0.0]
単語埋め込み後処理の適応を組み込んだシステムを提案する。
我々のアプローチは、人間が対話的に単語の埋め込みによって潜在的な品質問題を特定し、対処することを可能にする。
また、単語の埋め込み、単語の埋め込みに対する改善が機械学習パイプラインに与える影響について、より深い洞察を与えることができる。
論文 参考訳(メタデータ) (2021-10-06T16:10:32Z) - A Survey On Neural Word Embeddings [0.4822598110892847]
自然言語処理における意味の研究は、分布仮説に依存する。
概念の分散表現という革命的な考えは、人間の心の働きに近い。
ニューラルワード埋め込みは、すべてのNLPタスクを大幅に改善することで、NLPの分野全体を変革した。
論文 参考訳(メタデータ) (2021-10-05T03:37:57Z) - LexSubCon: Integrating Knowledge from Lexical Resources into Contextual
Embeddings for Lexical Substitution [76.615287796753]
本稿では,コンテキスト埋め込みモデルに基づくエンドツーエンドの語彙置換フレームワークであるLexSubConを紹介する。
これは文脈情報と構造化語彙資源からの知識を組み合わせることで達成される。
我々の実験によると、LexSubConはLS07とCoInCoベンチマークデータセットで従来の最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-11T21:25:56Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Interactive Re-Fitting as a Technique for Improving Word Embeddings [0.0]
我々は,単語の集合を互いに近づけることで,単語の埋め込み空間の一部を調整できるようにする。
提案手法では,単語埋め込みにおける潜在的なバイアスをユーザが操作する際,選択的な後処理をトリガーし,評価することができる。
論文 参考訳(メタデータ) (2020-09-30T21:54:22Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Comparative Analysis of Word Embeddings for Capturing Word Similarities [0.0]
分散言語表現は、様々な自然言語処理タスクにおいて、言語表現において最も広く使われている技術となっている。
ディープラーニング技術に基づく自然言語処理モデルのほとんどは、単語埋め込みと呼ばれる、すでに訓練済みの分散単語表現を使用している。
適切な単語の埋め込みを選択することは 複雑な作業です なぜなら、投影された埋め込み空間は 人間にとって直感的ではないからです
論文 参考訳(メタデータ) (2020-05-08T01:16:03Z) - Compass-aligned Distributional Embeddings for Studying Semantic
Differences across Corpora [14.993021283916008]
単語埋め込みを用いたクロスコーパス言語研究を支援するフレームワークを提案する。
CADEは私たちのフレームワークの中核的なコンポーネントであり、異なるコーパスから生成された埋め込みを整合させるという重要な問題を解決する。
実験の結果, CADEは, 競合するアプローチがいくつかあるタスクにおいて, 最先端あるいは優れた性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2020-04-13T15:46:47Z) - Multiplex Word Embeddings for Selectional Preference Acquisition [70.33531759861111]
単語間の様々な関係に応じて容易に拡張できる多重単語埋め込みモデルを提案する。
本モデルでは,不必要なスパース性を導入することなく,関係の異なる単語を効果的に識別することができる。
論文 参考訳(メタデータ) (2020-01-09T04:47:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。