論文の概要: Deriving Word Vectors from Contextualized Language Models using
Topic-Aware Mention Selection
- arxiv url: http://arxiv.org/abs/2106.07947v1
- Date: Tue, 15 Jun 2021 08:02:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-16 15:17:16.947318
- Title: Deriving Word Vectors from Contextualized Language Models using
Topic-Aware Mention Selection
- Title(参考訳): トピック・アウェア・メンション選択を用いた文脈言語モデルからの単語ベクトルの導出
- Authors: Yixiao Wang, Zied Bouraoui, Luis Espinosa Anke, Steven Schockaert
- Abstract要約: 本稿では,この基本戦略に従って単語表現を学習する手法を提案する。
我々は、文脈を符号化するワードベクトルの袋ではなく、文脈化された言語モデル(CLM)を利用する。
この単純な戦略は、単語埋め込みや既存のCLMベースの戦略よりも意味的特性をより予測し、高品質な単語ベクトルに繋がることを示す。
- 参考スコア(独自算出の注目度): 46.97185212695267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the long-standing challenges in lexical semantics consists in learning
representations of words which reflect their semantic properties. The
remarkable success of word embeddings for this purpose suggests that
high-quality representations can be obtained by summarizing the sentence
contexts of word mentions. In this paper, we propose a method for learning word
representations that follows this basic strategy, but differs from standard
word embeddings in two important ways. First, we take advantage of
contextualized language models (CLMs) rather than bags of word vectors to
encode contexts. Second, rather than learning a word vector directly, we use a
topic model to partition the contexts in which words appear, and then learn
different topic-specific vectors for each word. Finally, we use a task-specific
supervision signal to make a soft selection of the resulting vectors. We show
that this simple strategy leads to high-quality word vectors, which are more
predictive of semantic properties than word embeddings and existing CLM-based
strategies.
- Abstract(参考訳): 語彙意味論における長年の課題の1つは、その意味的特性を反映した単語の学習である。
単語埋め込みの顕著な成功は、単語参照の文文脈を要約することで高品質な表現が得られることを示唆している。
本稿では,この基本戦略に従うが,標準的な単語埋め込みとは2つの重要な方法で異なる単語表現の学習法を提案する。
まず、文脈を符号化するワードベクトルの袋ではなく、文脈化された言語モデル(CLM)を利用する。
第二に、単語ベクトルを直接学習するのではなく、話題モデルを用いて単語が現れるコンテキストを分割し、各単語について異なるトピック固有ベクトルを学習する。
最後に、タスク固有の監視信号を用いて、結果のベクトルをソフトに選択する。
この単純な戦略は、単語埋め込みや既存のclmベースの戦略よりも意味的特性をより予測する高品質な単語ベクトルをもたらす。
関連論文リスト
- Visual Prompt Selection for In-Context Learning Segmentation [77.15684360470152]
本稿では,サンプル選択戦略の再考と改善に焦点をあてる。
まず、ICLに基づくセグメンテーションモデルが異なる文脈に敏感であることを示す。
さらに、経験的証拠は、文脈的プロンプトの多様性がセグメンテーションを導く上で重要な役割を担っていることを示している。
論文 参考訳(メタデータ) (2024-07-14T15:02:54Z) - Vocabulary-free Image Classification and Semantic Segmentation [71.78089106671581]
本稿では,Vocabulary-free Image Classification (VIC)タスクを導入する。これは,制約のない言語による意味空間から,既知の語彙を必要とせずに,入力画像にクラスを割り当てることを目的としている。
VICは、細かなカテゴリを含む数百万の概念を含む意味空間の広さのために、挑戦的である。
本稿では,事前学習された視覚言語モデルと外部データベースを利用した学習自由度手法CaSEDを提案する。
論文 参考訳(メタデータ) (2024-04-16T19:27:21Z) - Searching for Discriminative Words in Multidimensional Continuous
Feature Space [0.0]
文書から識別キーワードを抽出する新しい手法を提案する。
異なる差別的指標が全体的な結果にどのように影響するかを示す。
単語特徴ベクトルは文書の意味のトピック的推論を大幅に改善することができると結論付けている。
論文 参考訳(メタデータ) (2022-11-26T18:05:11Z) - Word2Box: Learning Word Representation Using Box Embeddings [28.080105878687185]
単語のベクトル表現を学習することは、NLPにおける最も基本的なトピックの1つである。
我々のモデルであるWord2Boxは、単語表現の問題に対する領域ベースアプローチを採用し、単語を$n$次元長方形として表現する。
様々な単語類似性タスク、特にあまり一般的でない単語の性能向上を実証した。
論文 参考訳(メタデータ) (2021-06-28T01:17:11Z) - Accurate Word Representations with Universal Visual Guidance [55.71425503859685]
本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。
各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小型の単語画像辞書を構築する。
12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。
論文 参考訳(メタデータ) (2020-12-30T09:11:50Z) - Modelling General Properties of Nouns by Selectively Averaging
Contextualised Embeddings [46.49372320363155]
本稿では,BERTによって予測される文脈的埋め込みを用いて,高品質な単語ベクトルを生成する方法を示す。
マスク付き単語参照の文脈的埋め込みを平均化する単純な戦略が静的な単語ベクトルよりも優れたベクトルをもたらすことが判明した。
論文 参考訳(メタデータ) (2020-12-04T14:03:03Z) - Robust and Consistent Estimation of Word Embedding for Bangla Language
by fine-tuning Word2Vec Model [1.2691047660244335]
単語ベクトルを学習するための word2vec モデルを解析し,バングラ語に最も効果的な単語埋め込みを提案する。
我々は,単語ベクトルをクラスタ化して,単語の関連性について固有の評価を行うとともに,ニュース記事の特徴として異なる単語埋め込みを用いる。
論文 参考訳(メタデータ) (2020-10-26T08:00:48Z) - Unsupervised Distillation of Syntactic Information from Contextualized
Word Representations [62.230491683411536]
我々は,ニューラルネットワーク表現における意味論と構造学の非教師なしの絡み合いの課題に取り組む。
この目的のために、構造的に類似しているが意味的に異なる文群を自動的に生成する。
我々は、我々の変換クラスタベクトルが、語彙的意味論ではなく構造的特性によって空間に現れることを実証する。
論文 参考訳(メタデータ) (2020-10-11T15:13:18Z) - Using Holographically Compressed Embeddings in Question Answering [0.0]
本研究では,事前学習した埋め込みのホログラフィック圧縮を用いてトークン,そのパート・オブ・音声,名前付きエンティティタイプを表現する。
この実装は、修正された質問応答の繰り返しディープラーニングネットワークにおいて、意味的関係が保存され、高い性能が得られることを示す。
論文 参考訳(メタデータ) (2020-07-14T18:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。