論文の概要: Deconstructing word embedding algorithms
- arxiv url: http://arxiv.org/abs/2011.07013v1
- Date: Thu, 12 Nov 2020 14:23:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 06:23:54.764984
- Title: Deconstructing word embedding algorithms
- Title(参考訳): 単語埋め込みアルゴリズムの分解
- Authors: Kian Kenyon-Dean, Edward Newell, Jackie Chi Kit Cheung
- Abstract要約: 我々は、最もよく知られた単語埋め込みアルゴリズムのいくつかについて振り返りを提案する。
本研究では,Word2vec,GloVe,その他を共通形式に分解し,実演語埋め込みに必要な共通条件を明らかにした。
- 参考スコア(独自算出の注目度): 17.797952730495453
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Word embeddings are reliable feature representations of words used to obtain
high quality results for various NLP applications. Uncontextualized word
embeddings are used in many NLP tasks today, especially in resource-limited
settings where high memory capacity and GPUs are not available. Given the
historical success of word embeddings in NLP, we propose a retrospective on
some of the most well-known word embedding algorithms. In this work, we
deconstruct Word2vec, GloVe, and others, into a common form, unveiling some of
the common conditions that seem to be required for making performant word
embeddings. We believe that the theoretical findings in this paper can provide
a basis for more informed development of future models.
- Abstract(参考訳): 単語埋め込みは、様々なNLPアプリケーションに対して高品質な結果を得るために使用される単語の特徴表現である。
非コンテキスト化ワード埋め込みは、現在多くのnlpタスク、特に高メモリ容量とgpuが利用できないリソース制限設定で使われている。
NLPにおける単語埋め込みの歴史的成功を考えると、最もよく知られた単語埋め込みアルゴリズムの振り返りを提案する。
本研究では,word2vec,glove,その他を共通の形式に分解し,高性能な単語埋め込みに必要な共通条件を明らかにした。
我々は,本論文の理論的知見が,将来のモデルの発展のよりインフォームドな基盤となると信じている。
関連論文リスト
- Word Embeddings for Banking Industry [0.0]
銀行固有の単語の埋め込みは、優れたスタンドアロンのソースや、他の広く利用可能な埋め込みの補完となるかもしれない。
本稿では,銀行固有の単語埋め込みのアイデアを探求し,GloVeやBERTといった単語埋め込みの他の源と比較した。
論文 参考訳(メタデータ) (2023-06-02T01:00:44Z) - Taxonomy Enrichment with Text and Graph Vector Representations [61.814256012166794]
我々は,既存の分類学に新たな語を加えることを目的とした分類学の豊かさの問題に対処する。
我々は,この課題に対して,少ない労力で高い結果を得られる新しい手法を提案する。
我々は、異なるデータセットにわたる最先端の結果を達成し、ミスの詳細なエラー分析を提供する。
論文 参考訳(メタデータ) (2022-01-21T09:01:12Z) - Between words and characters: A Brief History of Open-Vocabulary
Modeling and Tokenization in NLP [22.772546707304766]
単語と文字のハイブリッドなアプローチと,学習セグメンテーションに基づくサブワードベースのアプローチが提案され,評価されていることを示す。
すべてのアプリケーションに対して銀の弾丸特異解が存在することはあり得ない。
論文 参考訳(メタデータ) (2021-12-20T13:04:18Z) - Fast Extraction of Word Embedding from Q-contexts [17.370344754614518]
コーパス全体(および単語との相互情報)に典型的な文脈(Q-contexts)のごく一部で、無視可能な誤りを伴う高品質な単語埋め込みを構築することができることを示す。
本稿では,これらの典型的な文脈から直接単語埋め込みを抽出できる,効率的かつ効果的なWEQ手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T05:14:31Z) - DocNLI: A Large-scale Dataset for Document-level Natural Language
Inference [55.868482696821815]
自然言語推論(NLI)は、様々なNLP問題を解決するための統一的なフレームワークとして定式化されている。
ドキュメントレベルのNLI用に新たに構築された大規模データセットであるDocNLIを紹介する。
論文 参考訳(メタデータ) (2021-06-17T13:02:26Z) - Obtaining Better Static Word Embeddings Using Contextual Embedding
Models [53.86080627007695]
提案手法はCBOWをベースとした簡易な蒸留法である。
副作用として、我々の手法は文脈的および静的な埋め込みの公正な比較を可能にする。
論文 参考訳(メタデータ) (2021-06-08T12:59:32Z) - Meta-Embeddings for Natural Language Inference and Semantic Similarity
tasks [0.0]
Word Representationsは、ほぼ全ての高度な自然言語処理(NLP)アプリケーションの中核となるコンポーネントである。
本稿では,主要なNLPタスクに効率よく取り組むために,SOTA(State-of-the-Art)モデルから派生したメタ埋め込みを提案する。
論文 参考訳(メタデータ) (2020-12-01T16:58:01Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z) - Attention Word Embedding [23.997145283950346]
本稿では,アテンションワード埋め込み(AWE)モデルを紹介し,アテンションメカニズムをCBOWモデルに統合する。
また,サブワード情報を組み込んだAWE-Sを提案する。
AWEとAWE-Sは、様々な単語類似性データセット上で、最先端の単語埋め込みモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-01T14:47:48Z) - Word Sense Disambiguation for 158 Languages using Word Embeddings Only [80.79437083582643]
文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。
本稿では,学習前の標準単語埋め込みモデルを入力として,完全に学習した単語認識のインベントリを誘導する手法を提案する。
この手法を用いて、158の言語に対して、事前訓練されたfastText単語の埋め込みに基づいて、センスインベントリのコレクションを誘導する。
論文 参考訳(メタデータ) (2020-03-14T14:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。