論文の概要: Lacking the embedding of a word? Look it up into a traditional
dictionary
- arxiv url: http://arxiv.org/abs/2109.11763v1
- Date: Fri, 24 Sep 2021 06:27:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-27 14:26:52.491709
- Title: Lacking the embedding of a word? Look it up into a traditional
dictionary
- Title(参考訳): 単語の埋め込みを欠くのか?
それを伝統的な辞書にまとめる
- Authors: Elena Sofia Ruzzetti, Leonardo Ranaldi, Michele Mastromattei,
Francesca Fallucchi, Fabio Massimo Zanzotto
- Abstract要約: 従来の辞書で検索された定義を用いて,稀な単語に対する単語埋め込みを生成することを提案する。
DefiNNetとDefBERTは、未知の単語の埋め込みを生成するためのベースラインメソッドと同様に、最先端の手法よりも大幅に優れている。
- 参考スコア(独自算出の注目度): 0.2624902795082451
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Word embeddings are powerful dictionaries, which may easily capture language
variations. However, these dictionaries fail to give sense to rare words, which
are surprisingly often covered by traditional dictionaries. In this paper, we
propose to use definitions retrieved in traditional dictionaries to produce
word embeddings for rare words. For this purpose, we introduce two methods:
Definition Neural Network (DefiNNet) and Define BERT (DefBERT). In our
experiments, DefiNNet and DefBERT significantly outperform state-of-the-art as
well as baseline methods devised for producing embeddings of unknown words. In
fact, DefiNNet significantly outperforms FastText, which implements a method
for the same task-based on n-grams, and DefBERT significantly outperforms the
BERT method for OOV words. Then, definitions in traditional dictionaries are
useful to build word embeddings for rare words.
- Abstract(参考訳): 単語埋め込みは強力な辞書であり、言語のバリエーションを簡単に捉えることができる。
しかし、これらの辞書は稀な単語に意味を持たず、驚くほど伝統的な辞書でカバーされることが多い。
本稿では,従来の辞書で検索された定義を用いて,稀な単語に対する単語埋め込みを提案する。
この目的のために,定義ニューラルネットワーク (definnet) と bert (defbert) という2つの手法を導入する。
我々の実験では、DefiNNetとDefBERTは、未知語の埋め込みを生成するために考案されたベースラインメソッドだけでなく、最先端技術よりも大幅に優れています。
事実、DefiNNetはn-gramsで同じタスクベースのメソッドを実装したFastTextを著しく上回り、DefBERTはOOVワードのBERTメソッドを著しく上回ります。
そして、伝統的な辞書の定義は、稀な単語に対する単語埋め込みを構築するのに有用である。
関連論文リスト
- LitMind Dictionary: An Open-Source Online Dictionary [5.2221935174520056]
本稿では,オープンソースのオンライン生成辞書LitMind Dictionaryを紹介する。
単語を含む単語とコンテキストを入力として取り、自動的に定義を出力として生成する。
中国語と英語だけでなく、中国語と英語の言語間のクエリもサポートしている。
論文 参考訳(メタデータ) (2022-04-23T15:10:40Z) - Pretraining without Wordpieces: Learning Over a Vocabulary of Millions
of Words [50.11559460111882]
本稿では,単語ではなく単語の語彙上で,BERTスタイルの事前学習モデルを開発する可能性について検討する。
その結果,標準的なワードピースベースのBERTと比較して,WordBERTはクローゼテストや機械読解の大幅な改善を実現していることがわかった。
パイプラインは言語に依存しないので、中国語でWordBERTを訓練し、5つの自然言語理解データセットで大きな利益を得る。
論文 参考訳(メタデータ) (2022-02-24T15:15:48Z) - Dict-BERT: Enhancing Language Model Pre-training with Dictionary [42.0998323292348]
事前学習型言語モデル(PLM)は,大規模コーパス上で自己指導型学習タスクを行うことで,普遍的な言語表現を学習することを目的としている。
本研究では,辞書におけるレアワードの定義を活用することで,言語モデル事前学習の強化に焦点をあてる。
入力テキストシーケンスとまれな単語定義間の単語と文レベルのアライメントに関する2つの新しい自己教師付き事前学習タスクを提案する。
論文 参考訳(メタデータ) (2021-10-13T04:29:14Z) - Deconstructing word embedding algorithms [17.797952730495453]
我々は、最もよく知られた単語埋め込みアルゴリズムのいくつかについて振り返りを提案する。
本研究では,Word2vec,GloVe,その他を共通形式に分解し,実演語埋め込みに必要な共通条件を明らかにした。
論文 参考訳(メタデータ) (2020-11-12T14:23:35Z) - Look It Up: Bilingual Dictionaries Improve Neural Machine Translation [17.385945558427863]
本稿では,辞書定義をレアワードに"付加"する手法について述べる。
バイリンガル辞書による最大1.8BLEUの改善を実証した。
論文 参考訳(メタデータ) (2020-10-12T19:53:08Z) - BERT for Monolingual and Cross-Lingual Reverse Dictionary [56.8627517256663]
本稿では,BERTが特定のタスクの目的語を生成するための,シンプルだが効果的な手法を提案する。
BERT (mBERT) を用いることで,1つの単語を埋め込んだ言語間逆辞書を効率的に行うことができる。
論文 参考訳(メタデータ) (2020-09-30T17:00:10Z) - Taking Notes on the Fly Helps BERT Pre-training [94.43953312613577]
Takeing Notes on the Fly (TNF) は、事前トレーニング中にフライで稀な単語のメモを取り、次回発生するときにモデルがそれらを理解するのに役立つ。
TNFは、文中のまれな単語によって引き起こされる不適切な意味をカバーするために、クロス文情報を用いるので、より良いデータ利用を提供する。
論文 参考訳(メタデータ) (2020-08-04T11:25:09Z) - When Dictionary Learning Meets Deep Learning: Deep Dictionary Learning
and Coding Network for Image Recognition with Limited Data [74.75557280245643]
本稿では,限られたデータを用いた画像認識タスクのための新しいDeep Dictionary Learning and Coding Network(DDLCN)を提案する。
DDLCNをいくつかの主要な辞書学習手法と深層学習モデルと比較した。
5つの一般的なデータセットに対する実験結果から,DDLCNはトレーニングデータに制限がある場合の最先端手法と比較して,競合的な結果が得られることが示された。
論文 参考訳(メタデータ) (2020-05-21T23:12:10Z) - Word Sense Disambiguation for 158 Languages using Word Embeddings Only [80.79437083582643]
文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。
本稿では,学習前の標準単語埋め込みモデルを入力として,完全に学習した単語認識のインベントリを誘導する手法を提案する。
この手法を用いて、158の言語に対して、事前訓練されたfastText単語の埋め込みに基づいて、センスインベントリのコレクションを誘導する。
論文 参考訳(メタデータ) (2020-03-14T14:50:04Z) - Lexical Sememe Prediction using Dictionary Definitions by Capturing
Local Semantic Correspondence [94.79912471702782]
セメムは人間の言語の最小の意味単位として定義されており、多くのNLPタスクで有用であることが証明されている。
本稿では,このようなマッチングを捕捉し,セメムを予測できるセメム対応プールモデルを提案する。
我々は,有名なSememe KB HowNetのモデルとベースライン手法を評価し,そのモデルが最先端のパフォーマンスを実現することを発見した。
論文 参考訳(メタデータ) (2020-01-16T17:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。