論文の概要: Combining Static Word Embeddings and Contextual Representations for
Bilingual Lexicon Induction
- arxiv url: http://arxiv.org/abs/2106.03084v1
- Date: Sun, 6 Jun 2021 10:31:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-13 20:00:42.684106
- Title: Combining Static Word Embeddings and Contextual Representations for
Bilingual Lexicon Induction
- Title(参考訳): バイリンガル語彙誘導のための静的単語埋め込みと文脈表現の組み合わせ
- Authors: Jinpeng Zhang, Baijun Ji, Nini Xiao, Xiangyu Duan, Min Zhang, Yangbin
Shi, Weihua Luo
- Abstract要約: 静的な単語埋め込みと文脈表現を組み合わせた,シンプルで効果的な機構を提案する。
教師付きおよび教師なしのBLIベンチマーク設定下で, 様々な言語ペア上で, 組み合わせのメカニズムを検証した。
- 参考スコア(独自算出の注目度): 19.375597786174197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bilingual Lexicon Induction (BLI) aims to map words in one language to their
translations in another, and are typically through learning linear projections
to align monolingual word representation spaces. Two classes of word
representations have been explored for BLI: static word embeddings and
contextual representations, but there is no studies to combine both. In this
paper, we propose a simple yet effective mechanism to combine the static word
embeddings and the contextual representations to utilize the advantages of both
paradigms. We test the combination mechanism on various language pairs under
the supervised and unsupervised BLI benchmark settings. Experiments show that
our mechanism consistently improves performances over robust BLI baselines on
all language pairs by averagely improving 3.2 points in the supervised setting,
and 3.1 points in the unsupervised setting.
- Abstract(参考訳): バイリンガル語彙誘導(BLI)は、ある言語の単語を別の言語の単語にマッピングすることを目的としており、典型的には単言語的な単語表現空間を整列させるために線形射影を学習する。
単語表現は静的な単語埋め込みと文脈表現の2つのクラスがBLIのために研究されているが、両方を組み合わせる研究は行われていない。
本稿では,静的な単語埋め込みと文脈表現を組み合わせることで,両方のパラダイムの利点を活用できる,シンプルで効果的なメカニズムを提案する。
教師付きおよび教師なしのBLIベンチマーク設定下で, 様々な言語ペア上で組み合わせのメカニズムをテストする。
実験により,教師付き設定の3.2点,教師なし設定の3.1点を平均的に改善することにより,すべての言語ペアにおけるロバストbliベースラインのパフォーマンスを一貫して改善することを示した。
関連論文リスト
- On Bilingual Lexicon Induction with Large Language Models [81.6546357879259]
本稿では,バイリンガル辞書開発における次世代大規模言語モデルの可能性について検討する。
本研究では,1) 教師なしBLIにおけるゼロショットプロンプトと,2) シード翻訳ペアの組による少数ショットインコンテキストプロンプトについて検討する。
私たちの研究は、テキストからテキストへのmLLMの強力なBLI機能を示す最初のものです。
論文 参考訳(メタデータ) (2023-10-21T12:43:27Z) - Utilizing Language-Image Pretraining for Efficient and Robust Bilingual
Word Alignment [27.405171616881322]
We developed a novel UWT method called Word Alignment using Language- Image Pretraining (WALIP)。
WALIPは、CLIPモデルが提供する画像とテキストの共有埋め込み空間を介して視覚的観察を使用する。
実験の結果,WALIPは言語対のバイリンガル単語アライメントの最先端性能を改善していることがわかった。
論文 参考訳(メタデータ) (2022-05-23T20:29:26Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Improving Word Translation via Two-Stage Contrastive Learning [46.71404992627519]
BLIタスクのための頑健で効果的な2段階のコントラスト学習フレームワークを提案する。
多様な言語のための標準BLIデータセットに関する総合的な実験は、我々のフレームワークによって実現された大きな成果を示している。
論文 参考訳(メタデータ) (2022-03-15T22:51:22Z) - Word Alignment by Fine-tuning Embeddings on Parallel Corpora [96.28608163701055]
並列コーパス上の単語アライメントには、翻訳語彙の学習、言語処理ツールの言語間変換、翻訳出力の自動評価や解析など、幅広い応用がある。
近年,複数言語で訓練された言語モデル(LM)から抽出した事前学習された単語埋め込みが,並列データに対する明示的な訓練がなくても,単語アライメントタスクにおける競合的な結果が得られることを示す研究も行われている。
本稿では,事前学習したLMの活用と,アライメント品質の向上を目的とした並列テキストによる微調整,提案という2つのアプローチの結婚方法を検討する。
論文 参考訳(メタデータ) (2021-01-20T17:54:47Z) - Bilingual Lexicon Induction via Unsupervised Bitext Construction and
Word Alignment [49.3253280592705]
我々は,bitextマイニングと教師なし単語アライメントを組み合わせた手法により,はるかに高品質な語彙を生成可能であることを示す。
私たちの最終モデルは、BUCC 2020共有タスクの最先端を14 $F_1$ポイント、平均12以上の言語ペアで上回ります。
論文 参考訳(メタデータ) (2021-01-01T03:12:42Z) - Beyond Offline Mapping: Learning Cross Lingual Word Embeddings through
Context Anchoring [41.77270308094212]
英語以外の言語における単語埋め込みのための代替マッピング手法を提案する。
2つの固定埋め込み空間を整列させるのではなく、対象言語埋め込みを固定し、それらに整列したソースコード言語に対する新しい埋め込み集合を学習することで機能する。
提案手法は,従来のバイリンガル語彙誘導法よりも優れており,下流XNLIタスクにおける競合結果が得られる。
論文 参考訳(メタデータ) (2020-12-31T17:10:14Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z) - Multilingual Alignment of Contextual Word Representations [49.42244463346612]
BERTはXNLIのゼロショット性能をベースモデルに比べて大幅に改善した。
単語検索の文脈バージョンを導入し、下流のゼロショット転送とよく相関していることを示す。
これらの結果は、大規模多言語事前学習モデルの理解に有用な概念としてコンテキストアライメントをサポートする。
論文 参考訳(メタデータ) (2020-02-10T03:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。