論文の概要: Cross-Lingual Word Embeddings for Turkic Languages
- arxiv url: http://arxiv.org/abs/2005.08340v1
- Date: Sun, 17 May 2020 18:57:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 05:35:32.217151
- Title: Cross-Lingual Word Embeddings for Turkic Languages
- Title(参考訳): テュルク諸語における言語間埋め込み
- Authors: Elmurod Kuriyozov, Yerai Doval, Carlos G\'omez-Rodr\'iguez
- Abstract要約: 言語間の単語埋め込みは、リソース豊富な言語から低リソース言語に知識を移すことができる。
トルコ語、ウズベク語、アゼリ語、カザフ語、キルギス語に言語間単語を埋め込む方法を示す。
- 参考スコア(独自算出の注目度): 1.418033127602866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been an increasing interest in learning cross-lingual word
embeddings to transfer knowledge obtained from a resource-rich language, such
as English, to lower-resource languages for which annotated data is scarce,
such as Turkish, Russian, and many others. In this paper, we present the first
viability study of established techniques to align monolingual embedding spaces
for Turkish, Uzbek, Azeri, Kazakh and Kyrgyz, members of the Turkic family
which is heavily affected by the low-resource constraint. Those techniques are
known to require little explicit supervision, mainly in the form of bilingual
dictionaries, hence being easily adaptable to different domains, including
low-resource ones. We obtain new bilingual dictionaries and new word embeddings
for these languages and show the steps for obtaining cross-lingual word
embeddings using state-of-the-art techniques. Then, we evaluate the results
using the bilingual dictionary induction task. Our experiments confirm that the
obtained bilingual dictionaries outperform previously-available ones, and that
word embeddings from a low-resource language can benefit from resource-rich
closely-related languages when they are aligned together. Furthermore,
evaluation on an extrinsic task (Sentiment analysis on Uzbek) proves that
monolingual word embeddings can, although slightly, benefit from cross-lingual
alignments.
- Abstract(参考訳): 英語などの資源豊富な言語から得られた知識を、トルコ語、ロシア語など、注釈付きデータが乏しい低リソース言語に伝達するために、言語間単語の埋め込みを学ぶことへの関心が高まっている。
本稿では,トルコ語,ウズベク語,アゼルバイジャン語,カザフ語,キルギス語など,低リソース制約の影響を強く受けているトルコ語族に属する一言語組込み空間を統一するための確立された手法について,最初の実現可能性について検討する。
これらの技術は、主にバイリンガル辞書の形で明示的な監督をほとんど必要とせず、低リソースの辞書を含む様々な領域に容易に適応できることが知られている。
両言語辞書とこれらの言語に対する新しい単語埋め込みを取得し、最先端技術を用いて言語間単語埋め込みを得るためのステップを示す。
次に,バイリンガル辞書誘導タスクを用いて結果を評価する。
実験の結果,得られたバイリンガル辞書は従来よりも優れており,低リソース言語からの単語の埋め込みは,リソースに富んだ近縁な言語が連携する上で有効であることがわかった。
さらに、外在的タスク(ウズベクの感性分析)の評価は、単言語単語の埋め込みはわずかながら言語間アライメントの恩恵を受けることができることを証明している。
関連論文リスト
- Enhancing Cross-lingual Sentence Embedding for Low-resource Languages with Word Alignment [13.997006139875563]
低リソース言語における言語間単語表現は、特に現在のモデルにおける高リソース言語における単語表現と一致していない。
そこで本研究では,既製の単語アライメントモデルを用いて,英語と低リソース言語8言語間の単語アライメントを明確にする新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-03T05:58:53Z) - Multilingual Word Embeddings for Low-Resource Languages using Anchors
and a Chain of Related Languages [54.832599498774464]
我々は,言語連鎖に基づく新しいアプローチにより,多言語単語埋め込み(MWE)を構築することを提案する。
リソースの豊富なソースから始めて、ターゲットに到達するまで各言語をチェーンに順次追加することで、MWEを一度に1つの言語で構築します。
本手法は,4つの低リソース(5Mトークン)と4つの中程度の低リソース(50M)ターゲット言語を含む4つの言語ファミリーを対象としたバイリンガルレキシコン誘導法について検討した。
論文 参考訳(メタデータ) (2023-11-21T09:59:29Z) - Hindi as a Second Language: Improving Visually Grounded Speech with
Semantically Similar Samples [89.16814518860357]
本研究の目的は,多言語の観点からの視覚的基盤音声モデル(VGS)の学習を検討することである。
この研究における重要な貢献は、低リソース言語の性能を向上させるために、バイリンガルな視覚的基盤を持つ音声モデルにおける高リソース言語のパワーを活用することである。
論文 参考訳(メタデータ) (2023-03-30T16:34:10Z) - When Word Embeddings Become Endangered [0.685316573653194]
本稿では,異なる資源豊富な言語の単語埋め込みとリソース不足言語の翻訳辞書を用いて,絶滅危惧言語の単語埋め込みを構築する手法を提案する。
言語間の単語埋め込みと感情分析モデルはすべて、簡単に使えるPythonライブラリを通じて公開されています。
論文 参考訳(メタデータ) (2021-03-24T15:42:53Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Anchor-based Bilingual Word Embeddings for Low-Resource Languages [76.48625630211943]
良質な単言語単語埋め込み(MWEs)は、大量のラベルのないテキストを持つ言語向けに構築することができる。
MWEは、数千の単語変換ペアだけでバイリンガル空間に整列することができる。
本稿では,高資源言語におけるベクトル空間を出発点とするBWEの構築手法を提案する。
論文 参考訳(メタデータ) (2020-10-23T19:17:00Z) - Discovering Bilingual Lexicons in Polyglot Word Embeddings [32.53342453685406]
本研究では,多言語単語の埋め込みを生成する多言語コーパスで訓練された1つのスキップグラムモデルを利用する。
本稿では, 比較的単純な近傍サンプリング手法により, バイリンガル辞書を検索できることを示す。
3つのヨーロッパ語対にまたがって、多言語単語の埋め込みは、確かに単語のリッチな意味表現を学習する。
論文 参考訳(メタデータ) (2020-08-31T03:57:50Z) - Transfer learning and subword sampling for asymmetric-resource
one-to-many neural translation [14.116412358534442]
低リソース言語のためのニューラルマシン翻訳を改善する方法について概説する。
人工的に制限された3つの翻訳タスクと1つの現実世界タスクでテストが行われる。
実験は、特にスケジュールされたマルチタスク学習、denoising autoencoder、サブワードサンプリングに肯定的な効果を示す。
論文 参考訳(メタデータ) (2020-04-08T14:19:05Z) - A Common Semantic Space for Monolingual and Cross-Lingual
Meta-Embeddings [10.871587311621974]
本稿では,モノリンガルおよびクロスリンガルなメタ埋め込みを作成するための新しい手法を提案する。
既存のワードベクトルは線形変換と平均化を用いて共通の意味空間に投影される。
結果として得られる言語間メタ埋め込みは、優れた言語間移動学習能力を示す。
論文 参考訳(メタデータ) (2020-01-17T15:42:29Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z) - Cross-lingual, Character-Level Neural Morphological Tagging [57.0020906265213]
文字レベルのリカレントなニューラルタグをトレーニングし、高リソース言語と低リソース言語を併用して形態的タグ付けを予測する。
複数の関連言語間の共同文字表現の学習は、高リソース言語から低リソース言語への知識伝達を成功させ、モノリンガルモデルの精度を最大30%向上させる。
論文 参考訳(メタデータ) (2017-08-30T08:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。