論文の概要: Bilingual Lexicon Induction via Unsupervised Bitext Construction and
Word Alignment
- arxiv url: http://arxiv.org/abs/2101.00148v1
- Date: Fri, 1 Jan 2021 03:12:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 11:11:52.843483
- Title: Bilingual Lexicon Induction via Unsupervised Bitext Construction and
Word Alignment
- Title(参考訳): 教師なしバイテキスト構築と単語アライメントによるバイリンガル語彙誘導
- Authors: Haoyue Shi, Luke Zettlemoyer, Sida I. Wang
- Abstract要約: 我々は,bitextマイニングと教師なし単語アライメントを組み合わせた手法により,はるかに高品質な語彙を生成可能であることを示す。
私たちの最終モデルは、BUCC 2020共有タスクの最先端を14 $F_1$ポイント、平均12以上の言語ペアで上回ります。
- 参考スコア(独自算出の注目度): 49.3253280592705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bilingual lexicons map words in one language to their translations in
another, and are typically induced by learning linear projections to align
monolingual word embedding spaces. In this paper, we show it is possible to
produce much higher quality lexicons with methods that combine (1) unsupervised
bitext mining and (2) unsupervised word alignment. Directly applying a pipeline
that uses recent algorithms for both subproblems significantly improves induced
lexicon quality and further gains are possible by learning to filter the
resulting lexical entries, with both unsupervised and semi-supervised schemes.
Our final model outperforms the state of the art on the BUCC 2020 shared task
by 14 $F_1$ points averaged over 12 language pairs, while also providing a more
interpretable approach that allows for rich reasoning of word meaning in
context.
- Abstract(参考訳): 二言語レキシコンは、ある言語の単語を別の言語の翻訳にマッピングし、典型的には単言語単語埋め込み空間を整列するために線形射影を学習することによって引き起こされる。
本稿では,(1)教師なしビットクストマイニングと(2)教師なし単語アライメントを組み合わせた手法により,はるかに高品質な語彙を生成可能であることを示す。
最近のアルゴリズムを両方の部分問題に適用するパイプラインを直接適用することで、誘導レキシコンの品質が大幅に向上し、結果として得られた語彙エントリを教師なしと半教師なしの両方のスキームでフィルターすることでさらなるゲインが可能になる。
最後のモデルは、bucc 2020の共有タスクの最先端を12の言語ペアの平均14ドルのf_1$ポイントで上回り、文脈における単語の意味の豊富な推論を可能にする、より解釈可能なアプローチも提供しています。
関連論文リスト
- Semi-Supervised Learning for Bilingual Lexicon Induction [1.8130068086063336]
本稿では,言語に対応する2つの連続語表現の集合を共通空間に整列させてバイリンガル語彙を推論する問題を考察する。
標準ベンチマークの実験では、英語から20言語以上の言語に辞書を推論し、我々のアプローチが既存の技術ベンチマークを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2024-02-10T19:27:22Z) - Don't Forget Cheap Training Signals Before Building Unsupervised
Bilingual Word Embeddings [64.06041300946517]
我々は、教師なしBWE手法を開発する際には、容易にアクセスできる言語間信号が常に考慮されるべきであると主張している。
このような安価な信号はうまく動作し、遠隔言語対においてより複雑な教師なし手法により性能が向上することを示す。
この結果から,BWEを構築する際には,遠隔言語であっても,これらの学習信号を無視すべきでないことが示された。
論文 参考訳(メタデータ) (2022-05-31T12:00:55Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Unsupervised Alignment of Distributional Word Embeddings [0.0]
クロスドメインアライメントは、機械翻訳から伝達学習までのタスクにおいて重要な役割を果たす。
提案手法は,複数の言語対をまたいだバイリンガル語彙誘導タスクにおいて,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-03-09T16:39:06Z) - Word Embedding Transformation for Robust Unsupervised Bilingual Lexicon
Induction [21.782189001319935]
2つの言語の埋め込みの同型性を高めるための変換に基づく手法を提案する。
我々の手法は最先端の手法と比較して、競争力や優れた性能を達成することができる。
論文 参考訳(メタデータ) (2021-05-26T02:09:58Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - Beyond Offline Mapping: Learning Cross Lingual Word Embeddings through
Context Anchoring [41.77270308094212]
英語以外の言語における単語埋め込みのための代替マッピング手法を提案する。
2つの固定埋め込み空間を整列させるのではなく、対象言語埋め込みを固定し、それらに整列したソースコード言語に対する新しい埋め込み集合を学習することで機能する。
提案手法は,従来のバイリンガル語彙誘導法よりも優れており,下流XNLIタスクにおける競合結果が得られる。
論文 参考訳(メタデータ) (2020-12-31T17:10:14Z) - Unsupervised Bitext Mining and Translation via Self-trained Contextual
Embeddings [51.47607125262885]
不整合テキストから機械翻訳(MT)のための擬似並列コーパスを作成するための教師なし手法について述べる。
我々は多言語BERTを用いて、最寄りの検索のためのソースとターゲット文の埋め込みを作成し、自己学習によりモデルを適応する。
BUCC 2017 bitextマイニングタスクで並列文ペアを抽出し,F1スコアの最大24.5ポイント増加(絶対)を従来の教師なし手法と比較して観察することで,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-10-15T14:04:03Z) - Refinement of Unsupervised Cross-Lingual Word Embeddings [2.4366811507669124]
言語間の単語埋め込みは、高リソース言語と低リソース言語のギャップを埋めることを目的としています。
教師なしバイリンガル単語埋め込みのアライメントを改良する自己教師付き手法を提案する。
論文 参考訳(メタデータ) (2020-02-21T10:39:53Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。