論文の概要: Model Choices Influence Attributive Word Associations: A Semi-supervised
Analysis of Static Word Embeddings
- arxiv url: http://arxiv.org/abs/2012.07978v1
- Date: Mon, 14 Dec 2020 22:27:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-08 16:37:45.858595
- Title: Model Choices Influence Attributive Word Associations: A Semi-supervised
Analysis of Static Word Embeddings
- Title(参考訳): モデル選択が帰属語連想に及ぼす影響--静的単語埋め込みの半教師あり分析
- Authors: Geetanjali Bihani, Julia Taylor Rayz
- Abstract要約: 本研究は、5つの異なる静的単語埋め込みアーキテクチャの属性的単語関連を評価することを目的とする。
その結果, 組込み学習における文脈学習のフレーバーの選択は, 学習コーパスにおける単語の関連性や単語の組込み感に影響を及ぼすことが明らかとなった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Static word embeddings encode word associations, extensively utilized in
downstream NLP tasks. Although prior studies have discussed the nature of such
word associations in terms of biases and lexical regularities captured, the
variation in word associations based on the embedding training procedure
remains in obscurity. This work aims to address this gap by assessing
attributive word associations across five different static word embedding
architectures, analyzing the impact of the choice of the model architecture,
context learning flavor and training corpora. Our approach utilizes a
semi-supervised clustering method to cluster annotated proper nouns and
adjectives, based on their word embedding features, revealing underlying
attributive word associations formed in the embedding space, without
introducing any confirmation bias. Our results reveal that the choice of the
context learning flavor during embedding training (CBOW vs skip-gram) impacts
the word association distinguishability and word embeddings' sensitivity to
deviations in the training corpora. Moreover, it is empirically shown that even
when trained over the same corpora, there is significant inter-model disparity
and intra-model similarity in the encoded word associations across different
word embedding models, portraying specific patterns in the way the embedding
space is created for each embedding architecture.
- Abstract(参考訳): 静的単語埋め込みは、下流のNLPタスクで広く利用される単語関連を符号化する。
先行研究ではバイアスや語彙の規則性の観点から単語連想の性質について論じてきたが、埋め込み訓練手順に基づく単語連想のばらつきはいまだに曖昧である。
本研究の目的は,5つの静的単語埋め込みアーキテクチャにおける帰属的単語関連性を評価し,モデルアーキテクチャの選択,文脈学習のフレーバー,学習コーパスの影響を分析することである。
本手法では, 半教師付きクラスタリング手法を用いて, 単語埋め込み特徴に基づく固有名詞・形容詞のクラスタ化を行い, 認識バイアスを生じさせることなく, 組込み空間に形成された帰属語連想の基盤を明らかにする。
その結果, 組込み学習における文脈学習のフレーバーの選択は, 学習コーパスにおける単語の関連性や単語の組込み感に影響を及ぼすことが明らかとなった。
さらに、同一コーパス上で訓練しても、異なる単語埋め込みモデルにまたがる符号化語アソシエーションにおいて、モデル間格差とモデル内類似性が顕著であることが実証的に示され、組込みアーキテクチャ毎に組込み空間が作られるように、特定のパターンを表現できることが示されている。
関連論文リスト
- Mitigating Semantic Leakage in Cross-lingual Embeddings via Orthogonality Constraint [6.880579537300643]
現在の不整合表現学習法はセマンティックリークに悩まされている。
我々は,新しい学習目標orthogonAlity Constraint LEarning(ORACLE)を提案する。
ORACLEはクラス内のクラスタリングとクラス間の分離という2つのコンポーネントの上に構築されている。
ORACLE目標を用いたトレーニングは,意味的漏洩を効果的に低減し,埋め込み空間内の意味的アライメントを高めることを実証する。
論文 参考訳(メタデータ) (2024-09-24T02:01:52Z) - Keywords and Instances: A Hierarchical Contrastive Learning Framework
Unifying Hybrid Granularities for Text Generation [59.01297461453444]
入力テキスト中のハイブリッドな粒度意味を統一する階層的コントラスト学習機構を提案する。
実験により,本モデルがパラフレージング,対話生成,ストーリーテリングタスクにおいて,競争ベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2022-05-26T13:26:03Z) - VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。
視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文 参考訳(メタデータ) (2022-03-20T03:49:02Z) - LexSubCon: Integrating Knowledge from Lexical Resources into Contextual
Embeddings for Lexical Substitution [76.615287796753]
本稿では,コンテキスト埋め込みモデルに基づくエンドツーエンドの語彙置換フレームワークであるLexSubConを紹介する。
これは文脈情報と構造化語彙資源からの知識を組み合わせることで達成される。
我々の実験によると、LexSubConはLS07とCoInCoベンチマークデータセットで従来の最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-11T21:25:56Z) - Clinical Named Entity Recognition using Contextualized Token
Representations [49.036805795072645]
本稿では,各単語の意味的意味をより正確に把握するために,文脈型単語埋め込み手法を提案する。
言語モデル(C-ELMo)とC-Flair(C-Flair)の2つの深い文脈型言語モデル(C-ELMo)を事前訓練する。
明示的な実験により、静的単語埋め込みとドメインジェネリック言語モデルの両方と比較して、我々のモデルは劇的に改善されている。
論文 参考訳(メタデータ) (2021-06-23T18:12:58Z) - Dynamic Contextualized Word Embeddings [20.81930455526026]
言語的文脈と外言語的文脈の両方の関数として単語を表す動的文脈化単語埋め込みを導入する。
事前訓練された言語モデル(PLM)に基づいて、動的文脈化された単語埋め込みは、時間と社会空間を協調的にモデル化する。
4つの英語データセットの質的および定量的分析により,潜在的な応用シナリオを強調した。
論文 参考訳(メタデータ) (2020-10-23T22:02:40Z) - Unsupervised Distillation of Syntactic Information from Contextualized
Word Representations [62.230491683411536]
我々は,ニューラルネットワーク表現における意味論と構造学の非教師なしの絡み合いの課題に取り組む。
この目的のために、構造的に類似しているが意味的に異なる文群を自動的に生成する。
我々は、我々の変換クラスタベクトルが、語彙的意味論ではなく構造的特性によって空間に現れることを実証する。
論文 参考訳(メタデータ) (2020-10-11T15:13:18Z) - A Neural Generative Model for Joint Learning Topics and Topic-Specific
Word Embeddings [42.87769996249732]
共同学習トピックとトピック固有の単語埋め込みのための局所的・グローバル的文脈を探索する新しい生成モデルを提案する。
訓練されたモデルは、単語を話題に依存した埋め込みにマッピングする。
論文 参考訳(メタデータ) (2020-08-11T13:54:11Z) - Comparative Analysis of Word Embeddings for Capturing Word Similarities [0.0]
分散言語表現は、様々な自然言語処理タスクにおいて、言語表現において最も広く使われている技術となっている。
ディープラーニング技術に基づく自然言語処理モデルのほとんどは、単語埋め込みと呼ばれる、すでに訓練済みの分散単語表現を使用している。
適切な単語の埋め込みを選択することは 複雑な作業です なぜなら、投影された埋め込み空間は 人間にとって直感的ではないからです
論文 参考訳(メタデータ) (2020-05-08T01:16:03Z) - Multiplex Word Embeddings for Selectional Preference Acquisition [70.33531759861111]
単語間の様々な関係に応じて容易に拡張できる多重単語埋め込みモデルを提案する。
本モデルでは,不必要なスパース性を導入することなく,関係の異なる単語を効果的に識別することができる。
論文 参考訳(メタデータ) (2020-01-09T04:47:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。