論文の概要: Denoising Word Embeddings by Averaging in a Shared Space
- arxiv url: http://arxiv.org/abs/2106.02954v1
- Date: Sat, 5 Jun 2021 19:49:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-14 00:29:32.338104
- Title: Denoising Word Embeddings by Averaging in a Shared Space
- Title(参考訳): 共有空間における平均化による単語埋め込み
- Authors: Avi Caciularu, Ido Dagan, Jacob Goldberger
- Abstract要約: 単語埋め込みの品質を円滑にし,改善するための新しい手法を提案する。
一般化プロクリスト解析(GPA)手法の効率的な実装を用いて,すべてのモデルを共有ベクトル空間に投影する。
新しい表現はより安定し信頼性が高いため、稀な単語評価において顕著な改善がある。
- 参考スコア(独自算出の注目度): 34.175826109538676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a new approach for smoothing and improving the quality of word
embeddings. We consider a method of fusing word embeddings that were trained on
the same corpus but with different initializations. We project all the models
to a shared vector space using an efficient implementation of the Generalized
Procrustes Analysis (GPA) procedure, previously used in multilingual word
translation. Our word representation demonstrates consistent improvements over
the raw models as well as their simplistic average, on a range of tasks. As the
new representations are more stable and reliable, there is a noticeable
improvement in rare word evaluations.
- Abstract(参考訳): 単語埋め込みの品質を円滑にし,改善するための新しい手法を提案する。
我々は,同じコーパス上で訓練されるが,初期化の異なる単語埋め込みを融合する手法を検討する。
我々は,これまで多言語翻訳に用いられてきた一般化 procrustes analysis (gpa) 手順の効率的な実装を用いて,すべてのモデルを共有ベクトル空間に投影する。
我々の単語表現は、様々なタスクにおいて、生のモデルとそれらの単純化平均よりも一貫した改善を示す。
新しい表現はより安定し信頼性が高いため、稀な単語評価において顕著な改善がある。
関連論文リスト
- Word Embedding with Neural Probabilistic Prior [24.893999575628452]
本稿では,単語埋め込みモデルとシームレスに統合可能な確率的先行モデルを提案する。
提案した構造は単純で効果的であり、容易に実装でき、柔軟に接続できる。
論文 参考訳(メタデータ) (2023-09-21T06:54:32Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。
我々は,単語順序の重要性を維持するために強制的無効化を提案する。
実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-04-11T13:42:10Z) - Retrofitting Multilingual Sentence Embeddings with Abstract Meaning
Representation [70.58243648754507]
抽象的意味表現(AMR)を用いた既存の多言語文の埋め込みを改善する新しい手法を提案する。
原文入力と比較すると、AMRは文の中核概念と関係を明確かつ曖昧に表す構造的意味表現である。
実験結果から,多言語文をAMRで埋め込むと,意味的類似性と伝達タスクの両方において,最先端の性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-10-18T11:37:36Z) - Robust Unsupervised Cross-Lingual Word Embedding using Domain Flow
Interpolation [48.32604585839687]
従来の敵対的アプローチは、並列データ無しに言語間単語埋め込みを誘導する有望な結果を示している。
そこで本研究では,滑らかなブリッジングのための中間空間列を提案する。
論文 参考訳(メタデータ) (2022-10-07T04:37:47Z) - Imputing Out-of-Vocabulary Embeddings with LOVE Makes Language Models
Robust with Little Cost [5.672132510411465]
最先端のNLPシステムは、単語埋め込みを伴う入力を表すが、外語彙の単語に直面すると、これらは不安定である。
我々は,単語の表面形のみを用いて事前学習した埋め込みの挙動を学習することにより,未知語に対するベクトルを生成するための模倣様モデルの原理に従う。
本稿では,既存の事前学習型言語モデル(BERTなど)の単語表現を拡張したシンプルなコントラスト学習フレームワークLOVEを提案する。
論文 参考訳(メタデータ) (2022-03-15T13:11:07Z) - Obtaining Better Static Word Embeddings Using Contextual Embedding
Models [53.86080627007695]
提案手法はCBOWをベースとした簡易な蒸留法である。
副作用として、我々の手法は文脈的および静的な埋め込みの公正な比較を可能にする。
論文 参考訳(メタデータ) (2021-06-08T12:59:32Z) - Improving Chinese Segmentation-free Word Embedding With Unsupervised
Association Measure [3.9435648520559177]
時間情報とポイントワイド関連性(PATI)という,新しい教師なしの関連尺度を通じてn-gramの語彙を収集することにより,セグメンテーションフリーな単語埋め込みモデルを提案する
提案手法では, コーパスからより潜時的な情報を利用して, 中国語テキストなどの未分類言語データに, より強い凝集度を持つn-gramを埋め込み, より有効なn-gramを収集できる。
論文 参考訳(メタデータ) (2020-07-05T13:55:19Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。