論文の概要: Isomorphic Cross-lingual Embeddings for Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2203.14632v1
- Date: Mon, 28 Mar 2022 10:39:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 02:31:29.857141
- Title: Isomorphic Cross-lingual Embeddings for Low-Resource Languages
- Title(参考訳): 低リソース言語のための同型言語間埋め込み
- Authors: Sonal Sannigrahi and Jesse Read
- Abstract要約: CLWE(Cross-Lingual Word Embeddings)は、高リソース設定から学習した言語情報を低リソースに転送するための重要なコンポーネントである。
我々は、関連の高い高リソース言語を共同で活用することで、低リソース対に対して、アイソメトリを仮定せずにCLWEを学習するフレームワークを導入する。
両言語レキシコン誘導(BLI)と固有値類似度(Eigenvalue similarity)によって測定された同型性の品質と程度において,現在の手法よりも一貫した利得を示す。
- 参考スコア(独自算出の注目度): 1.5076964620370268
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-Lingual Word Embeddings (CLWEs) are a key component to transfer
linguistic information learnt from higher-resource settings into lower-resource
ones. Recent research in cross-lingual representation learning has focused on
offline mapping approaches due to their simplicity, computational efficacy, and
ability to work with minimal parallel resources. However, they crucially depend
on the assumption of embedding spaces being approximately isomorphic i.e.
sharing similar geometric structure, which does not hold in practice, leading
to poorer performance on low-resource and distant language pairs. In this
paper, we introduce a framework to learn CLWEs, without assuming isometry, for
low-resource pairs via joint exploitation of a related higher-resource
language. In our work, we first pre-align the low-resource and related language
embedding spaces using offline methods to mitigate the assumption of isometry.
Following this, we use joint training methods to develops CLWEs for the related
language and the target embed-ding space. Finally, we remap the pre-aligned
low-resource space and the target space to generate the final CLWEs. We show
consistent gains over current methods in both quality and degree of
isomorphism, as measured by bilingual lexicon induction (BLI) and eigenvalue
similarity respectively, across several language pairs: {Nepali, Finnish,
Romanian, Gujarati, Hungarian}-English. Lastly, our analysis also points to the
relatedness as well as the amount of related language data available as being
key factors in determining the quality of embeddings achieved.
- Abstract(参考訳): CLWE(Cross-Lingual Word Embeddings)は、高リソース設定から学習した言語情報を低リソースに転送するための重要なコンポーネントである。
言語間表現学習における最近の研究は、その単純さ、計算効率、および最小の並列リソースを扱う能力により、オフラインマッピングアプローチに焦点を当てている。
しかし、それらはほとんど同型な埋め込み空間、すなわち実際には成立しない類似の幾何学的構造を共有するという仮定に大きく依存しており、低リソースと遠方の言語対の性能が低下する原因となっている。
本稿では,関係する高リソース言語を共同で活用することで,低リソース対に対して,アイソメトリを仮定せずにCLWEを学習するフレームワークを提案する。
本研究では,まずオフラインメソッドを用いた低リソースおよび関連言語埋め込み空間の事前評価を行い,イソメトリの仮定を緩和した。
その後、我々は共同学習法を用いて、言語と対象埋め込み空間のためのCLWEを開発する。
最後に,最終CLWEを生成するために,予め整列された低リソース空間とターゲット空間を再マップする。
本研究は,二つの言語対(ネパリ語,フィンランド語,ルーマニア語,グジャラティ語,ハンガリー語,ハンガリー語)において,相同性(bilingual lexicon induction, bli)と固有値類似性(eigenvalue similarity)をそれぞれ測定した。
最後に,本分析では,埋め込みの質を決定する重要な要因として,関連性および関連言語データの量についても言及した。
関連論文リスト
- LLMs Are Few-Shot In-Context Low-Resource Language Learners [59.74451570590808]
In-context Learning (ICL) は、大規模言語モデル(LLM)に、表現不足の言語で多様なタスクを実行する権限を与える。
ICLとその言語間変動(X-ICL)を25の低リソース言語と7の比較的高リソース言語で検討した。
本研究は,LLMの低リソース理解品質向上における文脈内情報の重要性を論じる。
論文 参考訳(メタデータ) (2024-03-25T07:55:29Z) - MoSECroT: Model Stitching with Static Word Embeddings for Crosslingual Zero-shot Transfer [50.40191599304911]
クロスリンガルゼロショット転送のための静的単語埋め込みを用いたMoSECroTモデルスティッチについて紹介する。
本稿では,ソースコードPLMの埋め込みと対象言語の静的単語埋め込みのための共通空間を構築するために,相対表現を利用した最初のフレームワークを提案する。
提案するフレームワークは,MoSECroTに対処する際,弱いベースラインと競合するが,強いベースラインに比べて競合する結果が得られないことを示す。
論文 参考訳(メタデータ) (2024-01-09T21:09:07Z) - Multilingual Word Embeddings for Low-Resource Languages using Anchors
and a Chain of Related Languages [54.832599498774464]
我々は,言語連鎖に基づく新しいアプローチにより,多言語単語埋め込み(MWE)を構築することを提案する。
リソースの豊富なソースから始めて、ターゲットに到達するまで各言語をチェーンに順次追加することで、MWEを一度に1つの言語で構築します。
本手法は,4つの低リソース(5Mトークン)と4つの中程度の低リソース(50M)ターゲット言語を含む4つの言語ファミリーを対象としたバイリンガルレキシコン誘導法について検討した。
論文 参考訳(メタデータ) (2023-11-21T09:59:29Z) - A Simple and Effective Method to Improve Zero-Shot Cross-Lingual
Transfer Learning [6.329304732560936]
既存のゼロショットのクロスリンガル転送法は、並列コーパスやバイリンガル辞書に依存している。
意味喪失のない仮想多言語埋め込みに英語の埋め込みを移すための埋め込み・プッシュ・アテンション・プル・ロバスト・ターゲットを提案する。
論文 参考訳(メタデータ) (2022-10-18T15:36:53Z) - A Multi-level Supervised Contrastive Learning Framework for Low-Resource
Natural Language Inference [54.678516076366506]
自然言語推論(NLI)は、自然言語理解において、ますます重要な課題である。
本稿では,低リソースな自然言語推論のためのマルチSCLという,マルチレベルの教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-31T05:54:18Z) - Cross-lingual alignments of ELMo contextual embeddings [0.0]
言語間埋め込みは、低リソース言語から高リソース言語への単語の埋め込みをマッピングする。
最近の文脈埋め込みの言語間マッピングを作成するには、埋め込み空間間のアンカーポイントは、同じ文脈における単語でなければならない。
ELMo埋め込みのための新しい言語間マッピング手法を提案する。
論文 参考訳(メタデータ) (2021-06-30T11:26:43Z) - Cross-lingual Text Classification with Heterogeneous Graph Neural
Network [2.6936806968297913]
言語間テキスト分類は、ソース言語上の分類器を訓練し、その知識を対象言語に伝達することを目的としている。
近年の多言語事前学習言語モデル (mPLM) は言語間分類タスクにおいて顕著な結果をもたらす。
言語間テキスト分類のための言語内および言語間における異種情報を統合するための,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2021-05-24T12:45:42Z) - Anchor-based Bilingual Word Embeddings for Low-Resource Languages [76.48625630211943]
良質な単言語単語埋め込み(MWEs)は、大量のラベルのないテキストを持つ言語向けに構築することができる。
MWEは、数千の単語変換ペアだけでバイリンガル空間に整列することができる。
本稿では,高資源言語におけるベクトル空間を出発点とするBWEの構築手法を提案する。
論文 参考訳(メタデータ) (2020-10-23T19:17:00Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。