論文の概要: When Word Embeddings Become Endangered
- arxiv url: http://arxiv.org/abs/2103.13275v1
- Date: Wed, 24 Mar 2021 15:42:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 15:34:09.397135
- Title: When Word Embeddings Become Endangered
- Title(参考訳): 言葉の埋め込みが危険にさらされると
- Authors: Khalid Alnajjar
- Abstract要約: 本稿では,異なる資源豊富な言語の単語埋め込みとリソース不足言語の翻訳辞書を用いて,絶滅危惧言語の単語埋め込みを構築する手法を提案する。
言語間の単語埋め込みと感情分析モデルはすべて、簡単に使えるPythonライブラリを通じて公開されています。
- 参考スコア(独自算出の注目度): 0.685316573653194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Big languages such as English and Finnish have many natural language
processing (NLP) resources and models, but this is not the case for
low-resourced and endangered languages as such resources are so scarce despite
the great advantages they would provide for the language communities. The most
common types of resources available for low-resourced and endangered languages
are translation dictionaries and universal dependencies. In this paper, we
present a method for constructing word embeddings for endangered languages
using existing word embeddings of different resource-rich languages and the
translation dictionaries of resource-poor languages. Thereafter, the embeddings
are fine-tuned using the sentences in the universal dependencies and aligned to
match the semantic spaces of the big languages; resulting in cross-lingual
embeddings. The endangered languages we work with here are Erzya, Moksha,
Komi-Zyrian and Skolt Sami. Furthermore, we build a universal sentiment
analysis model for all the languages that are part of this study, whether
endangered or not, by utilizing cross-lingual word embeddings. The evaluation
conducted shows that our word embeddings for endangered languages are
well-aligned with the resource-rich languages, and they are suitable for
training task-specific models as demonstrated by our sentiment analysis model
which achieved a high accuracy. All our cross-lingual word embeddings and the
sentiment analysis model have been released openly via an easy-to-use Python
library.
- Abstract(参考訳): 英語やフィンランド語のような大きな言語は、多くの自然言語処理(NLP)リソースとモデルを持っているが、そのようなリソースが言語コミュニティにもたらす大きな利点にもかかわらず、低リソースで絶滅危惧言語にはそうではない。
低リソースおよび絶滅危惧言語で利用可能なリソースの最も一般的なタイプは、翻訳辞書と普遍的な依存関係である。
本稿では,異なる資源豊富な言語の単語埋め込みと資源不足言語の翻訳辞書を用いて,絶滅危惧言語の単語埋め込みを構築する手法を提案する。
その後、埋め込みは、普遍的な依存関係の文を用いて微調整され、大きな言語の意味空間と一致するように整列される。
私たちがここで働いている絶滅危惧言語は、Erzya、Moksha、Komi-Zyrian、Skolt Samiです。
さらに,言語間単語の埋め込みを利用して,この研究に含まれるすべての言語に対する普遍的な感情分析モデルを構築した。
評価の結果,絶滅危惧言語の単語埋め込みは資源豊富な言語とよく一致しており,高精度な感情分析モデルによるタスク固有モデルの訓練に適していることがわかった。
言語間の単語埋め込みと感情分析モデルはすべて、簡単に使えるPythonライブラリを通じて公開されています。
関連論文リスト
- LowREm: A Repository of Word Embeddings for 87 Low-Resource Languages Enhanced with Multilingual Graph Knowledge [0.6317163123651698]
87の低リソース言語に対する静的な埋め込みのリポジトリであるLowREmを紹介します。
また,多言語グラフ知識を統合することで,GloVeベースの埋め込みを強化する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-26T18:10:26Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Multilingual Word Embeddings for Low-Resource Languages using Anchors
and a Chain of Related Languages [54.832599498774464]
我々は,言語連鎖に基づく新しいアプローチにより,多言語単語埋め込み(MWE)を構築することを提案する。
リソースの豊富なソースから始めて、ターゲットに到達するまで各言語をチェーンに順次追加することで、MWEを一度に1つの言語で構築します。
本手法は,4つの低リソース(5Mトークン)と4つの中程度の低リソース(50M)ターゲット言語を含む4つの言語ファミリーを対象としたバイリンガルレキシコン誘導法について検討した。
論文 参考訳(メタデータ) (2023-11-21T09:59:29Z) - Contextualising Levels of Language Resourcedness affecting Digital
Processing of Text [0.5620321106679633]
我々は,全言語における直交型論 LRL と HRL が問題であると主張している。
特徴付けは、ツールを数えるのではなく、各カテゴリの文脈的特徴の類型化に基づいている。
論文 参考訳(メタデータ) (2023-09-29T07:48:24Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Sentiment Analysis Using Aligned Word Embeddings for Uralic Languages [1.0312968200748118]
本稿では,単語埋め込みを多数言語から4つの少数言語に翻訳する手法を提案する。
さらに、感情分析を行うために、英語データに基づいてトレーニングされた新しいニューラルネットワークモデルを提案する。
我々の研究は、最先端のニューラルモデルが絶滅危惧言語で使用できることを示している。
論文 参考訳(メタデータ) (2023-05-24T17:40:20Z) - Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - Creating Lexical Resources for Endangered Languages [2.363388546004777]
我々のアルゴリズムは公開ワードネットと機械翻訳装置(MT)を用いてバイリンガル辞書と多言語シソーラスを構築する。
我々の研究は、絶滅危惧言語と「中間ヘルパー」言語の間のバイリンガル辞書にのみ依存しているため、既存のリソースが不足している言語に適用できる。
論文 参考訳(メタデータ) (2022-08-08T02:31:28Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Cross-lingual, Character-Level Neural Morphological Tagging [57.0020906265213]
文字レベルのリカレントなニューラルタグをトレーニングし、高リソース言語と低リソース言語を併用して形態的タグ付けを予測する。
複数の関連言語間の共同文字表現の学習は、高リソース言語から低リソース言語への知識伝達を成功させ、モノリンガルモデルの精度を最大30%向上させる。
論文 参考訳(メタデータ) (2017-08-30T08:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。