論文の概要: Sinhala-English Word Embedding Alignment: Introducing Datasets and
Benchmark for a Low Resource Language
- arxiv url: http://arxiv.org/abs/2311.10436v1
- Date: Fri, 17 Nov 2023 10:14:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-20 14:53:43.303562
- Title: Sinhala-English Word Embedding Alignment: Introducing Datasets and
Benchmark for a Low Resource Language
- Title(参考訳): Sinhala- English Word Embedding Alignment: データセットの導入と低リソース言語のためのベンチマーク
- Authors: Kasun Wickramasinghe and Nisansa de Silva
- Abstract要約: 本稿では、利用可能なアライメント技術に基づいて、シンハラ語と英語単語の埋め込み空間をアライメントする。
それに加えて、教師付きアライメントを容易にするために、中間タスクとして、Sinhala- Englishアライメントデータセットも導入する。
- 参考スコア(独自算出の注目度): 0.3108011671896571
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since their inception, embeddings have become a primary ingredient in many
flavours of Natural Language Processing (NLP) tasks supplanting earlier types
of representation. Even though multilingual embeddings have been used for the
increasing number of multilingual tasks, due to the scarcity of parallel
training data, low-resource languages such as Sinhala, tend to focus more on
monolingual embeddings. Then when it comes to the aforementioned multi-lingual
tasks, it is challenging to utilize these monolingual embeddings given that
even if the embedding spaces have a similar geometric arrangement due to an
identical training process, the embeddings of the languages considered are not
aligned. This is solved by the embedding alignment task. Even in this,
high-resource language pairs are in the limelight while low-resource languages
such as Sinhala which is in dire need of help seem to have fallen by the
wayside. In this paper, we try to align Sinhala and English word embedding
spaces based on available alignment techniques and introduce a benchmark for
Sinhala language embedding alignment. In addition to that, to facilitate the
supervised alignment, as an intermediate task, we also introduce
Sinhala-English alignment datasets. These datasets serve as our anchor datasets
for supervised word embedding alignment. Even though we do not obtain results
comparable to the high-resource languages such as French, German, or Chinese,
we believe our work lays the groundwork for more specialized alignment between
English and Sinhala embeddings.
- Abstract(参考訳): 導入以来、埋め込みは、初期の表現に取って代わる自然言語処理(NLP)タスクの多くにおいて、主要な要素となっている。
並列トレーニングデータの不足のため、多言語組込みは多言語タスクの増加に利用されてきたが、sinhalaのような低リソース言語は単言語組込みに重点を置いている。
そして、上記の多言語課題に関して、同一の訓練過程により、埋め込み空間が類似した幾何学的配置を持つ場合でも、考慮される言語の埋め込みが一致しないため、これらの単言語埋め込みを利用するのは困難である。
これは埋め込みアライメントタスクによって解決される。
これでさえ、高リソースの言語ペアはライムライトにあり、Sinhalaのような、助けを必要としている低リソースの言語は、道に迷ったようだ。
本稿では,利用可能なアライメント技術に基づき,シンハラ語と英語の単語埋め込み空間をアライメントし,シンハラ語埋め込みアライメントのベンチマークを紹介する。
それに加えて、教師付きアライメントを促進するために、中間タスクとして、シンハラ英語アライメントデータセットも導入する。
これらのデータセットは、教師付き単語埋め込みアライメントのためのアンカーデータセットとして役立ちます。
フランス語、ドイツ語、中国語のような高資源言語に匹敵する結果は得られていないが、我々の研究は英語とシンハラの埋め込みのより専門的な調整の土台を築いていると信じている。
関連論文リスト
- Constructing and Expanding Low-Resource and Underrepresented Parallel Datasets for Indonesian Local Languages [0.0]
インドネシアの5つの言語を特徴とする多言語並列コーパスであるBhinneka Korpusを紹介する。
我々のゴールは、これらの資源へのアクセスと利用を強化し、国内へのリーチを広げることです。
論文 参考訳(メタデータ) (2024-04-01T09:24:06Z) - MoSECroT: Model Stitching with Static Word Embeddings for Crosslingual Zero-shot Transfer [50.40191599304911]
クロスリンガルゼロショット転送のための静的単語埋め込みを用いたMoSECroTモデルスティッチについて紹介する。
本稿では,ソースコードPLMの埋め込みと対象言語の静的単語埋め込みのための共通空間を構築するために,相対表現を利用した最初のフレームワークを提案する。
提案するフレームワークは,MoSECroTに対処する際,弱いベースラインと競合するが,強いベースラインに比べて競合する結果が得られないことを示す。
論文 参考訳(メタデータ) (2024-01-09T21:09:07Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Sinhala-English Parallel Word Dictionary Dataset [0.554780083433538]
本稿では,英語とシンハラ語に関連する多言語自然言語処理(NLP)タスクを支援する3つの並行英語・シンハラ語辞書(En-Si-dict-large,En-Si-dict-filtered,En-Si-dict-FastText)を紹介する。
論文 参考訳(メタデータ) (2023-08-04T10:21:35Z) - Language Agnostic Multilingual Information Retrieval with Contrastive
Learning [59.26316111760971]
本稿では,多言語情報検索システムの学習方法を提案する。
並列コーパスと非並列コーパスを利用して、事前訓練された多言語言語モデルを改善する。
我々のモデルは少数のパラレル文でもうまく機能する。
論文 参考訳(メタデータ) (2022-10-12T23:53:50Z) - Isomorphic Cross-lingual Embeddings for Low-Resource Languages [1.5076964620370268]
CLWE(Cross-Lingual Word Embeddings)は、高リソース設定から学習した言語情報を低リソースに転送するための重要なコンポーネントである。
我々は、関連の高い高リソース言語を共同で活用することで、低リソース対に対して、アイソメトリを仮定せずにCLWEを学習するフレームワークを導入する。
両言語レキシコン誘導(BLI)と固有値類似度(Eigenvalue similarity)によって測定された同型性の品質と程度において,現在の手法よりも一貫した利得を示す。
論文 参考訳(メタデータ) (2022-03-28T10:39:07Z) - Exploiting Parallel Corpora to Improve Multilingual Embedding based
Document and Sentence Alignment [1.5293427903448025]
本稿では,文書・文アライメントにおける多言語文表現の性能向上のために,小型並列コーパスを用いた重み付け機構を提案する。
新たに作成されたSinhala- English,Tamil- English,Sinhala-Tamilのデータセットの結果から,この新たな重み付け機構は文書のアライメントと文のアライメントを大幅に改善することが示された。
論文 参考訳(メタデータ) (2021-06-12T13:00:10Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Anchor-based Bilingual Word Embeddings for Low-Resource Languages [76.48625630211943]
良質な単言語単語埋め込み(MWEs)は、大量のラベルのないテキストを持つ言語向けに構築することができる。
MWEは、数千の単語変換ペアだけでバイリンガル空間に整列することができる。
本稿では,高資源言語におけるベクトル空間を出発点とするBWEの構築手法を提案する。
論文 参考訳(メタデータ) (2020-10-23T19:17:00Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。