論文の概要: Cross-lingual alignments of ELMo contextual embeddings
- arxiv url: http://arxiv.org/abs/2106.15986v1
- Date: Wed, 30 Jun 2021 11:26:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-01 20:55:05.357029
- Title: Cross-lingual alignments of ELMo contextual embeddings
- Title(参考訳): ELMoコンテキスト埋め込みの言語間アライメント
- Authors: Matej Ul\v{c}ar and Marko Robnik-\v{S}ikonja
- Abstract要約: 言語間埋め込みは、低リソース言語から高リソース言語への単語の埋め込みをマッピングする。
最近の文脈埋め込みの言語間マッピングを作成するには、埋め込み空間間のアンカーポイントは、同じ文脈における単語でなければならない。
ELMo埋め込みのための新しい言語間マッピング手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Building machine learning prediction models for a specific NLP task requires
sufficient training data, which can be difficult to obtain for low-resource
languages. Cross-lingual embeddings map word embeddings from a low-resource
language to a high-resource language so that a prediction model trained on data
from the high-resource language can also be used in the low-resource language.
To produce cross-lingual mappings of recent contextual embeddings, anchor
points between the embedding spaces have to be words in the same context. We
address this issue with a new method for creating datasets for cross-lingual
contextual alignments. Based on that, we propose novel cross-lingual mapping
methods for ELMo embeddings. Our linear mapping methods use existing vecmap and
MUSE alignments on contextual ELMo embeddings. Our new nonlinear ELMoGAN
mapping method is based on GANs and does not assume isomorphic embedding
spaces. We evaluate the proposed mapping methods on nine languages, using two
downstream tasks, NER and dependency parsing. The ELMoGAN method performs well
on the NER task, with low cross-lingual loss compared to direct training on
some languages. In the dependency parsing, linear alignment variants are more
successful.
- Abstract(参考訳): 特定のNLPタスクのための機械学習予測モデルを構築するには十分なトレーニングデータが必要である。
言語間埋め込みは、低リソース言語から高リソース言語への単語埋め込みをマッピングし、高リソース言語からのデータに基づいてトレーニングされた予測モデルを低リソース言語でも使用できるようにする。
最近の文脈埋め込みの言語間マッピングを作成するには、埋め込み空間間のアンカーポイントは同じ文脈で単語でなければならない。
本稿では,言語間コンテキストアライメントのためのデータセットの作成手法を提案する。
そこで本研究では,ELMo埋め込みのための新たな言語間マッピング手法を提案する。
線形写像法はコンテキストエルモ埋め込みに既存のvecmapとmuseアライメントを用いる。
我々の新しい非線形ELMoGANマッピング法はGANに基づいており、同型埋め込み空間を仮定していない。
NERと依存性解析という2つの下流タスクを用いて,9言語を対象に提案手法の評価を行った。
ELMoGAN法は,NERタスクにおいて,一部の言語での直接学習と比較して,言語間損失が低い。
依存性解析では、線形アライメントがより成功している。
関連論文リスト
- Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - MURI: High-Quality Instruction Tuning Datasets for Low-Resource Languages via Reverse Instructions [54.08017526771947]
MURI(Multilingual Reverse Instructions)は低リソース言語のための高品質な命令チューニングデータセットを生成する。
MURIは、低リソース言語における既存の人文テキストから命令出力ペアを生成する。
私たちのデータセットであるMURI-ITには200言語にまたがる200万以上の命令出力ペアが含まれています。
論文 参考訳(メタデータ) (2024-09-19T17:59:20Z) - MoSECroT: Model Stitching with Static Word Embeddings for Crosslingual Zero-shot Transfer [50.40191599304911]
クロスリンガルゼロショット転送のための静的単語埋め込みを用いたMoSECroTモデルスティッチについて紹介する。
本稿では,ソースコードPLMの埋め込みと対象言語の静的単語埋め込みのための共通空間を構築するために,相対表現を利用した最初のフレームワークを提案する。
提案するフレームワークは,MoSECroTに対処する際,弱いベースラインと競合するが,強いベースラインに比べて競合する結果が得られないことを示す。
論文 参考訳(メタデータ) (2024-01-09T21:09:07Z) - ProMap: Effective Bilingual Lexicon Induction via Language Model
Prompting [22.743097175747575]
バイリンガル誘導(BLI)の新しいアプローチであるProMapを紹介する。
ProMapは、言語モデルの効果的なパッドドプロンプトと、独立して使用する場合に優れたパフォーマンスを実現するシード辞書に依存している。
リッチ・ソース言語とロー・ソース言語の両方で評価すると、ProMapは一貫して最先端の結果が得られます。
論文 参考訳(メタデータ) (2023-10-28T18:33:24Z) - Learning Cross-lingual Mappings for Data Augmentation to Improve
Low-Resource Speech Recognition [31.575930914290762]
言語間リソースの爆発は、低リソース言語のデータの不足を補う効果的な方法である。
エンドツーエンド音声認識のための学習可能な言語間マッピングの概念を拡張した。
その結果,任意のソース言語 ASR モデルを用いて,低リソースターゲット言語認識を行うことが可能であることが示唆された。
論文 参考訳(メタデータ) (2023-06-14T15:24:31Z) - Isomorphic Cross-lingual Embeddings for Low-Resource Languages [1.5076964620370268]
CLWE(Cross-Lingual Word Embeddings)は、高リソース設定から学習した言語情報を低リソースに転送するための重要なコンポーネントである。
我々は、関連の高い高リソース言語を共同で活用することで、低リソース対に対して、アイソメトリを仮定せずにCLWEを学習するフレームワークを導入する。
両言語レキシコン誘導(BLI)と固有値類似度(Eigenvalue similarity)によって測定された同型性の品質と程度において,現在の手法よりも一貫した利得を示す。
論文 参考訳(メタデータ) (2022-03-28T10:39:07Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。