論文の概要: BERT for Monolingual and Cross-Lingual Reverse Dictionary
- arxiv url: http://arxiv.org/abs/2009.14790v1
- Date: Wed, 30 Sep 2020 17:00:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 23:37:36.705063
- Title: BERT for Monolingual and Cross-Lingual Reverse Dictionary
- Title(参考訳): 単言語・多言語逆辞書のためのBERT
- Authors: Hang Yan, Xiaonan Li, Xipeng Qiu
- Abstract要約: 本稿では,BERTが特定のタスクの目的語を生成するための,シンプルだが効果的な手法を提案する。
BERT (mBERT) を用いることで,1つの単語を埋め込んだ言語間逆辞書を効率的に行うことができる。
- 参考スコア(独自算出の注目度): 56.8627517256663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reverse dictionary is the task to find the proper target word given the word
description. In this paper, we tried to incorporate BERT into this task.
However, since BERT is based on the byte-pair-encoding (BPE) subword encoding,
it is nontrivial to make BERT generate a word given the description. We propose
a simple but effective method to make BERT generate the target word for this
specific task. Besides, the cross-lingual reverse dictionary is the task to
find the proper target word described in another language. Previous models have
to keep two different word embeddings and learn to align these embeddings.
Nevertheless, by using the Multilingual BERT (mBERT), we can efficiently
conduct the cross-lingual reverse dictionary with one subword embedding, and
the alignment between languages is not necessary. More importantly, mBERT can
achieve remarkable cross-lingual reverse dictionary performance even without
the parallel corpus, which means it can conduct the cross-lingual reverse
dictionary with only corresponding monolingual data. Code is publicly available
at https://github.com/yhcc/BertForRD.git.
- Abstract(参考訳): 逆辞書は、単語記述が与えられた適切なターゲット語を見つけるタスクである。
本稿では,この課題にBERTを組み込もうとした。
しかし、BERTはバイトペアエンコーディング(BPE)サブワードエンコーディングに基づいているため、BERTが記述された単語を生成するのは簡単ではない。
本稿では,このタスクのターゲット語を生成するための単純かつ効果的な手法を提案する。
さらに、言語間の逆辞書は、他の言語で記述された適切なターゲット語を見つけるタスクである。
以前のモデルは2つの異なる単語埋め込みを保持し、これらの埋め込みを調整することを学ぶ必要がある。
それでも、Multilingual BERT (mBERT) を用いることで、1つのサブワードを埋め込んだ言語間逆辞書を効率的に行うことができ、言語間のアライメントは不要である。
より重要なことに、mbertは並列コーパスがなくても著しい言語間逆辞書性能を達成できるため、対応する単言語データのみを用いて言語間逆辞書を実行できる。
コードはhttps://github.com/yhcc/BertForRD.gitで公開されている。
関連論文リスト
- L3Cube-IndicSBERT: A simple approach for learning cross-lingual sentence
representations using multilingual BERT [0.7874708385247353]
SBERT (Multilingual Sentence-BERT) モデルは、異なる言語を共通表現空間にマッピングする。
合成コーパスを用いたバニラ多言語BERTモデルから多言語文BERTモデルへ変換する手法を提案する。
多言語BERTモデルは本質的に言語間学習者であり、この単純なベースライン微調整アプローチは、例外的な言語間特性をもたらす。
論文 参考訳(メタデータ) (2023-04-22T15:45:40Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - MarkBERT: Marking Word Boundaries Improves Chinese BERT [67.53732128091747]
MarkBERTは、語彙を漢字として保持し、連続した単語間の境界マーカーを挿入する。
従来の単語ベースのBERTモデルと比較して、MarkBERTはテキスト分類、キーワード認識、意味的類似性タスクにおいて精度が向上している。
論文 参考訳(メタデータ) (2022-03-12T08:43:06Z) - Pretraining without Wordpieces: Learning Over a Vocabulary of Millions
of Words [50.11559460111882]
本稿では,単語ではなく単語の語彙上で,BERTスタイルの事前学習モデルを開発する可能性について検討する。
その結果,標準的なワードピースベースのBERTと比較して,WordBERTはクローゼテストや機械読解の大幅な改善を実現していることがわかった。
パイプラインは言語に依存しないので、中国語でWordBERTを訓練し、5つの自然言語理解データセットで大きな利益を得る。
論文 参考訳(メタデータ) (2022-02-24T15:15:48Z) - Lacking the embedding of a word? Look it up into a traditional
dictionary [0.2624902795082451]
従来の辞書で検索された定義を用いて,稀な単語に対する単語埋め込みを生成することを提案する。
DefiNNetとDefBERTは、未知の単語の埋め込みを生成するためのベースラインメソッドと同様に、最先端の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-09-24T06:27:58Z) - Subword Mapping and Anchoring across Languages [1.9352552677009318]
SMALA (Subword Mapping and Anchoring across Languages) は、バイリンガルなサブワード語彙を構築する方法である。
SMALAは教師なしの最先端マッピング技術を用いてサブワードアライメントを抽出する。
SMALAで獲得した単語語彙は,多くの偽陽性と偽陰性を含む文のBLEUスコアが高くなることを示す。
論文 参考訳(メタデータ) (2021-09-09T20:46:27Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Looking for Clues of Language in Multilingual BERT to Improve
Cross-lingual Generalization [56.87201892585477]
多言語BERT (m-BERT) には、言語情報と意味情報の両方が含まれている。
トークン埋め込みを操作することで多言語BERTの出力言語を制御する。
論文 参考訳(メタデータ) (2020-10-20T05:41:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。