論文の概要: SemGloVe: Semantic Co-occurrences for GloVe from BERT
- arxiv url: http://arxiv.org/abs/2012.15197v1
- Date: Wed, 30 Dec 2020 15:38:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 06:07:05.269650
- Title: SemGloVe: Semantic Co-occurrences for GloVe from BERT
- Title(参考訳): SemGloVe:BERTによるGloVeのセマンティック共同発生
- Authors: Leilei Gan, Zhiyang Teng, Yue Zhang, Linchao Zhu, Fei Wu, Yi Yang
- Abstract要約: GloVeは単語共起行列からの統計情報を利用して単語埋め込みを学ぶ。
BERTから静的なGloVeワード埋め込みに意味的共起を蒸留するSemGloVeを提案します。
- 参考スコア(独自算出の注目度): 55.420035541274444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GloVe learns word embeddings by leveraging statistical information from word
co-occurrence matrices. However, word pairs in the matrices are extracted from
a predefined local context window, which might lead to limited word pairs and
potentially semantic irrelevant word pairs. In this paper, we propose SemGloVe,
which distills semantic co-occurrences from BERT into static GloVe word
embeddings. Particularly, we propose two models to extract co-occurrence
statistics based on either the masked language model or the multi-head
attention weights of BERT. Our methods can extract word pairs without limiting
by the local window assumption and can define the co-occurrence weights by
directly considering the semantic distance between word pairs. Experiments on
several word similarity datasets and four external tasks show that SemGloVe can
outperform GloVe.
- Abstract(参考訳): GloVeは単語共起行列から統計情報を活用することで単語埋め込みを学習する。
しかし、行列中の単語ペアは、定義済みのローカルコンテキストウィンドウから抽出され、限定された単語ペアと潜在的に意味のない単語ペアにつながる可能性がある。
本稿では,BERTから静的なGloVe単語の埋め込みに意味的共起を蒸留するSemGloVeを提案する。
特に,マスク付き言語モデルと多頭部注意重みに基づく共起統計を抽出する2つのモデルを提案する。
提案手法は,局所的なウィンドウ仮定によって制限されることなく単語ペアを抽出し,単語ペア間の意味的距離を直接考慮して共起重みを定義できる。
いくつかの単語類似性データセットと4つの外部タスクの実験は、SemGloVeがGloVeより優れていることを示している。
関連論文リスト
- Tomato, Tomahto, Tomate: Measuring the Role of Shared Semantics among Subwords in Multilingual Language Models [88.07940818022468]
エンコーダのみの多言語言語モデル(mLM)におけるサブワード間の共有セマンティクスの役割を測る第一歩を踏み出した。
意味的に類似したサブワードとその埋め込みをマージして「意味トークン」を形成する。
グループ化されたサブワードの検査では 様々な意味的類似性を示します
論文 参考訳(メタデータ) (2024-11-07T08:38:32Z) - Leveraging multilingual transfer for unsupervised semantic acoustic word
embeddings [23.822788597966646]
音響単語埋め込み(AWEs)は、音声の内容を符号化する音声セグメントの固定次元ベクトル表現である。
本稿ではセマンティックAWEモデリングについて考察する。
AWEがダウンストリームのセマンティッククエリ・バイ・サンプル検索に使用できることを初めて示します。
論文 参考訳(メタデータ) (2023-07-05T07:46:54Z) - Relational Sentence Embedding for Flexible Semantic Matching [86.21393054423355]
文埋め込みの可能性を明らかにするための新しいパラダイムとして,文埋め込み(Sentence Embedding, RSE)を提案する。
RSEは文関係のモデル化に有効で柔軟性があり、一連の最先端の埋め込み手法より優れている。
論文 参考訳(メタデータ) (2022-12-17T05:25:17Z) - Improving Contextual Representation with Gloss Regularized Pre-training [9.589252392388758]
本稿では,単語の意味的類似性を高めるため,BERT事前学習(GR-BERT)に補助的なグロース正規化モジュールを提案する。
マスクされた単語を予測し、コンテキスト埋め込みを対応するグルースに同時にアライメントすることにより、単語の類似性を明示的にモデル化することができる。
実験結果から,単語レベルおよび文レベルの意味表現において,Gloss regularizerはBERTの恩恵を受けることがわかった。
論文 参考訳(メタデータ) (2022-05-13T12:50:32Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Extending Multi-Sense Word Embedding to Phrases and Sentences for
Unsupervised Semantic Applications [34.71597411512625]
本稿では,テキスト列(句または文)に対して,それぞれのシーケンスをコードブック埋め込みの異なる集合で表現する新しい埋め込み手法を提案する。
提案手法は,教師なし文の類似性と抽出要約ベンチマークの性能を大幅に改善することを示す。
論文 参考訳(メタデータ) (2021-03-29T04:54:28Z) - R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic
Matching [58.72111690643359]
文意味マッチングのための関係学習ネットワーク(R2-Net)を提案する。
最初にBERTを使用して、グローバルな視点から入力文をエンコードします。
次に、cnnベースのエンコーダは、ローカルな視点からキーワードやフレーズ情報をキャプチャするように設計されている。
関係情報抽出にラベルを十分に活用するために,関係分類タスクの自己教師付き関係性を導入する。
論文 参考訳(メタデータ) (2020-12-16T13:11:30Z) - PBoS: Probabilistic Bag-of-Subwords for Generalizing Word Embedding [16.531103175919924]
単語の埋め込みを一般化する作業について検討する。
有限語彙上の事前訓練された単語ベクトルの集合が与えられた場合、その目標は語彙外単語に対する埋め込みベクトルを予測することである。
サブワードセグメント化を同時にモデル化し,サブワードをベースとした合成単語の埋め込みを計算できるモデルを提案する。
論文 参考訳(メタデータ) (2020-10-21T08:11:08Z) - SST-BERT at SemEval-2020 Task 1: Semantic Shift Tracing by Clustering in
BERT-based Embedding Spaces [63.17308641484404]
本稿では,異なる単語の意味の表現として,各単語の異なる事象のクラスタを特定することを提案する。
得られたクラスタの分解は、自然に4つのターゲット言語において、各ターゲットワードごとの意味的シフトのレベルを定量化することができる。
当社のアプローチは,提供されたすべてのSemEvalベースラインを抜いて,個別(言語毎)と全体の両方で良好に動作します。
論文 参考訳(メタデータ) (2020-10-02T08:38:40Z) - Supervised Understanding of Word Embeddings [1.160208922584163]
単語埋め込みにおける線形キーワードレベル分類器の形で教師付きプロジェクションを得た。
我々は,本手法が元の埋め込み次元の解釈可能な投影を生成することを示した。
論文 参考訳(メタデータ) (2020-06-23T20:13:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。