論文の概要: Improving Bilingual Lexicon Induction with Cross-Encoder Reranking
- arxiv url: http://arxiv.org/abs/2210.16953v2
- Date: Thu, 17 Oct 2024 22:47:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:23:38.533328
- Title: Improving Bilingual Lexicon Induction with Cross-Encoder Reranking
- Title(参考訳): クロスエンコーダリグレードによるバイリンガルレキシコン誘導の改善
- Authors: Yaoyiran Li, Fangyu Liu, Ivan Vulić, Anna Korhonen,
- Abstract要約: BLICEr (BLI with Cross-Encoder Re rank) と呼ばれる新しい半教師付きポストホックリグレード法を提案する。
鍵となる考え方は、mPLMから言語間の語彙的知識を抽出し、元のCLWEと組み合わせることである。
BLICErは、多様な言語にまたがる2つの標準BLIベンチマークで、新しい結果を確立している。
- 参考スコア(独自算出の注目度): 31.142790337451366
- License:
- Abstract: Bilingual lexicon induction (BLI) with limited bilingual supervision is a crucial yet challenging task in multilingual NLP. Current state-of-the-art BLI methods rely on the induction of cross-lingual word embeddings (CLWEs) to capture cross-lingual word similarities; such CLWEs are obtained 1) via traditional static models (e.g., VecMap), or 2) by extracting type-level CLWEs from multilingual pretrained language models (mPLMs), or 3) through combining the former two options. In this work, we propose a novel semi-supervised post-hoc reranking method termed BLICEr (BLI with Cross-Encoder Reranking), applicable to any precalculated CLWE space, which improves their BLI capability. The key idea is to 'extract' cross-lingual lexical knowledge from mPLMs, and then combine it with the original CLWEs. This crucial step is done via 1) creating a word similarity dataset, comprising positive word pairs (i.e., true translations) and hard negative pairs induced from the original CLWE space, and then 2) fine-tuning an mPLM (e.g., mBERT or XLM-R) in a cross-encoder manner to predict the similarity scores. At inference, we 3) combine the similarity score from the original CLWE space with the score from the BLI-tuned cross-encoder. BLICEr establishes new state-of-the-art results on two standard BLI benchmarks spanning a wide spectrum of diverse languages: it substantially outperforms a series of strong baselines across the board. We also validate the robustness of BLICEr with different CLWEs.
- Abstract(参考訳): バイリンガル・レキシコン誘導(BLI)は,多言語NLPにおいて極めて重要な課題である。
現在の最先端BLI法は言語間単語の類似性を捉えるために言語間単語埋め込み(CLWE)の誘導に依存している。
1) 従来の静的モデル(例えば、VecMap)、または
2)多言語事前訓練言語モデル(mPLM)から型レベルCLWEを抽出することにより、または
3) 前者の2つのオプションを組み合わせる。
本研究では, BLICEr (BLI with Cross-Encoder Re rank) と呼ばれる, 計算済みのCLWE空間に適用可能な半教師付きポストホックリグレード手法を提案する。
鍵となる考え方は、mPLMから言語間の語彙的知識を抽出し、元のCLWEと組み合わせることである。
この重要なステップは
1)正の単語対(すなわち真翻訳)と元のCLWE空間から誘導される強負の対からなる単語類似性データセットの作成。
2)mPLM(eg,mBERT,XLM-R)をクロスエンコーダ方式で微調整して類似度スコアを予測する。
推測では
3) CLWE空間の類似点とBLI調整クロスエンコーダの類似点を組み合わせる。
BLICErは、さまざまな言語にまたがる2つの標準BLIベンチマークにおいて、最先端の新たな結果を確立している。
また,異なるCLWEを用いたBLICErのロバスト性についても検証した。
関連論文リスト
- Embracing Language Inclusivity and Diversity in CLIP through Continual
Language Learning [58.92843729869586]
視覚言語事前学習モデル (VL-PTMs) は近年、先進的なマルチモーダル研究を行っているが、英語のようないくつかの言語での習得は、より広いコミュニティにおける適用性を制限している。
我々は,連続言語学習(CLL)によってVL-PTMの言語能力を拡張することを提案する。
我々は,MSCOCOおよびXM3600データセットに基づく36言語をカバーするCLLベンチマークを構築し,多言語画像テキスト検索性能を評価する。
論文 参考訳(メタデータ) (2024-01-30T17:14:05Z) - On Bilingual Lexicon Induction with Large Language Models [81.6546357879259]
本稿では,バイリンガル辞書開発における次世代大規模言語モデルの可能性について検討する。
本研究では,1) 教師なしBLIにおけるゼロショットプロンプトと,2) シード翻訳ペアの組による少数ショットインコンテキストプロンプトについて検討する。
私たちの研究は、テキストからテキストへのmLLMの強力なBLI機能を示す最初のものです。
論文 参考訳(メタデータ) (2023-10-21T12:43:27Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - Multilingual Sentence Transformer as A Multilingual Word Aligner [15.689680887384847]
多言語文 Transformer LaBSE が強い多言語単語アライメント器であるかどうかを検討する。
7つの言語対の実験結果から、最も優れたコーディネータは、すべての品種の過去の最先端モデルよりも優れていることが示された。
コーディネータは1つのモデルで異なる言語ペアをサポートし、ファインタニングプロセスに現れないゼロショット言語ペア上で新しい最先端の言語ペアを実現する。
論文 参考訳(メタデータ) (2023-01-28T09:28:55Z) - A Multi-level Supervised Contrastive Learning Framework for Low-Resource
Natural Language Inference [54.678516076366506]
自然言語推論(NLI)は、自然言語理解において、ますます重要な課題である。
本稿では,低リソースな自然言語推論のためのマルチSCLという,マルチレベルの教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-31T05:54:18Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Improving Word Translation via Two-Stage Contrastive Learning [46.71404992627519]
BLIタスクのための頑健で効果的な2段階のコントラスト学習フレームワークを提案する。
多様な言語のための標準BLIデータセットに関する総合的な実験は、我々のフレームワークによって実現された大きな成果を示している。
論文 参考訳(メタデータ) (2022-03-15T22:51:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。