論文の概要: Training Cross-Lingual embeddings for Setswana and Sepedi
- arxiv url: http://arxiv.org/abs/2111.06230v1
- Date: Thu, 11 Nov 2021 14:26:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-12 18:29:08.399557
- Title: Training Cross-Lingual embeddings for Setswana and Sepedi
- Title(参考訳): Setswana と Sepedi の言語間埋め込みの訓練
- Authors: Mack Makgatho, Vukosi Marivate, Tshephisho Sefara, Valencia Wagner
- Abstract要約: 本稿では,Setswana と Sepedi の単言語単語ベクトルを学習し,VecMap を用いて言語間埋め込みを生成する。
セツワナ・セペディ語間単語表現の質を意味的評価タスクを用いて評価する。
- 参考スコア(独自算出の注目度): 0.011947990549568768
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: African languages still lag in the advances of Natural Language Processing
techniques, one reason being the lack of representative data, having a
technique that can transfer information between languages can help mitigate
against the lack of data problem. This paper trains Setswana and Sepedi
monolingual word vectors and uses VecMap to create cross-lingual embeddings for
Setswana-Sepedi in order to do a cross-lingual transfer.
Word embeddings are word vectors that represent words as continuous floating
numbers where semantically similar words are mapped to nearby points in
n-dimensional space. The idea of word embeddings is based on the distribution
hypothesis that states, semantically similar words are distributed in similar
contexts (Harris, 1954).
Cross-lingual embeddings leverages monolingual embeddings by learning a
shared vector space for two separately trained monolingual vectors such that
words with similar meaning are represented by similar vectors. In this paper,
we investigate cross-lingual embeddings for Setswana-Sepedi monolingual word
vector. We use the unsupervised cross lingual embeddings in VecMap to train the
Setswana-Sepedi cross-language word embeddings. We evaluate the quality of the
Setswana-Sepedi cross-lingual word representation using a semantic evaluation
task. For the semantic similarity task, we translated the WordSim and SimLex
tasks into Setswana and Sepedi. We release this dataset as part of this work
for other researchers. We evaluate the intrinsic quality of the embeddings to
determine if there is improvement in the semantic representation of the word
embeddings.
- Abstract(参考訳): アフリカの言語は、自然言語処理技術の進歩にまだ遅れている。1つの理由は、代表データがないため、言語間で情報を転送できる技術は、データの問題の欠如を緩和するのに役立ちます。
本稿では,Setswana と Sepedi の単言語語ベクトルを学習し,VecMap を用いてセツワナ・セペディの言語間埋め込みを作成し,言語間移動を行う。
単語埋め込みは単語を連続浮動小数点として表現するワードベクトルであり、n次元空間の近傍の点に意味的に類似した単語がマッピングされる。
単語埋め込みの概念は、意味的に類似した単語が類似した文脈で分布するという分布仮説に基づいている(harris, 1954)。
言語間埋め込みは、類似した意味を持つ単語が類似したベクトルで表されるように、個別に訓練された2つの単言語ベクトルに対して共有ベクトル空間を学習することにより、単言語埋め込みを利用する。
本稿では,Setswana-Sepedi単言語単語ベクトルの言語間埋め込みについて検討する。
教師なしの言語間埋め込みをVecMapで使用し、セツワナ・セペディ語間の単語埋め込みを訓練する。
意味的評価タスクを用いてセツワナ・セペディ語間単語表現の品質を評価する。
意味的類似性タスクについては,WordSim と SimLex のタスクを Setswana と Sepedi に翻訳した。
他の研究者のためにこの研究の一環として、このデータセットをリリースします。
単語埋め込みのセマンティック表現に改善があるかどうかを判断するために,埋め込みの固有の品質を評価する。
関連論文リスト
- Tomato, Tomahto, Tomate: Measuring the Role of Shared Semantics among Subwords in Multilingual Language Models [88.07940818022468]
エンコーダのみの多言語言語モデル(mLM)におけるサブワード間の共有セマンティクスの役割を測る第一歩を踏み出した。
意味的に類似したサブワードとその埋め込みをマージして「意味トークン」を形成する。
グループ化されたサブワードの検査では 様々な意味的類似性を示します
論文 参考訳(メタデータ) (2024-11-07T08:38:32Z) - LexSubCon: Integrating Knowledge from Lexical Resources into Contextual
Embeddings for Lexical Substitution [76.615287796753]
本稿では,コンテキスト埋め込みモデルに基づくエンドツーエンドの語彙置換フレームワークであるLexSubConを紹介する。
これは文脈情報と構造化語彙資源からの知識を組み合わせることで達成される。
我々の実験によると、LexSubConはLS07とCoInCoベンチマークデータセットで従来の最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-11T21:25:56Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - Beyond Offline Mapping: Learning Cross Lingual Word Embeddings through
Context Anchoring [41.77270308094212]
英語以外の言語における単語埋め込みのための代替マッピング手法を提案する。
2つの固定埋め込み空間を整列させるのではなく、対象言語埋め込みを固定し、それらに整列したソースコード言語に対する新しい埋め込み集合を学習することで機能する。
提案手法は,従来のバイリンガル語彙誘導法よりも優れており,下流XNLIタスクにおける競合結果が得られる。
論文 参考訳(メタデータ) (2020-12-31T17:10:14Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Supervised Understanding of Word Embeddings [1.160208922584163]
単語埋め込みにおける線形キーワードレベル分類器の形で教師付きプロジェクションを得た。
我々は,本手法が元の埋め込み次元の解釈可能な投影を生成することを示した。
論文 参考訳(メタデータ) (2020-06-23T20:13:42Z) - Comparative Analysis of Word Embeddings for Capturing Word Similarities [0.0]
分散言語表現は、様々な自然言語処理タスクにおいて、言語表現において最も広く使われている技術となっている。
ディープラーニング技術に基づく自然言語処理モデルのほとんどは、単語埋め込みと呼ばれる、すでに訓練済みの分散単語表現を使用している。
適切な単語の埋め込みを選択することは 複雑な作業です なぜなら、投影された埋め込み空間は 人間にとって直感的ではないからです
論文 参考訳(メタデータ) (2020-05-08T01:16:03Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z) - A Common Semantic Space for Monolingual and Cross-Lingual
Meta-Embeddings [10.871587311621974]
本稿では,モノリンガルおよびクロスリンガルなメタ埋め込みを作成するための新しい手法を提案する。
既存のワードベクトルは線形変換と平均化を用いて共通の意味空間に投影される。
結果として得られる言語間メタ埋め込みは、優れた言語間移動学習能力を示す。
論文 参考訳(メタデータ) (2020-01-17T15:42:29Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。