論文の概要: Discovering Bilingual Lexicons in Polyglot Word Embeddings
- arxiv url: http://arxiv.org/abs/2008.13347v1
- Date: Mon, 31 Aug 2020 03:57:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 06:52:44.315265
- Title: Discovering Bilingual Lexicons in Polyglot Word Embeddings
- Title(参考訳): 多言語単語埋め込みにおけるバイリンガル語彙の発見
- Authors: Ashiqur R. KhudaBukhsh, Shriphani Palakodety, Tom M. Mitchell
- Abstract要約: 本研究では,多言語単語の埋め込みを生成する多言語コーパスで訓練された1つのスキップグラムモデルを利用する。
本稿では, 比較的単純な近傍サンプリング手法により, バイリンガル辞書を検索できることを示す。
3つのヨーロッパ語対にまたがって、多言語単語の埋め込みは、確かに単語のリッチな意味表現を学習する。
- 参考スコア(独自算出の注目度): 32.53342453685406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bilingual lexicons and phrase tables are critical resources for modern
Machine Translation systems. Although recent results show that without any seed
lexicon or parallel data, highly accurate bilingual lexicons can be learned
using unsupervised methods, such methods rely on the existence of large, clean
monolingual corpora. In this work, we utilize a single Skip-gram model trained
on a multilingual corpus yielding polyglot word embeddings, and present a novel
finding that a surprisingly simple constrained nearest-neighbor sampling
technique in this embedding space can retrieve bilingual lexicons, even in
harsh social media data sets predominantly written in English and Romanized
Hindi and often exhibiting code switching. Our method does not require
monolingual corpora, seed lexicons, or any other such resources. Additionally,
across three European language pairs, we observe that polyglot word embeddings
indeed learn a rich semantic representation of words and substantial bilingual
lexicons can be retrieved using our constrained nearest neighbor sampling. We
investigate potential reasons and downstream applications in settings spanning
both clean texts and noisy social media data sets, and in both resource-rich
and under-resourced language pairs.
- Abstract(参考訳): バイリンガル辞書とフレーズテーブルは現代の機械翻訳システムにとって重要なリソースである。
近年の研究では、種子レキシコンや平行データがないと、教師なしの方法で高精度な二言語レキシコンを学べるが、そのような方法は巨大でクリーンな単言語コーパスの存在に依存している。
本稿では,多言語コーパスで多言語単語埋め込みを訓練した単一のスキップグラムモデルを用いて,この埋め込み空間における驚くほど単純な制約付き最近距離サンプリング手法が,英語とローマ字化されたヒンディー語で主に記述され,コードスイッチングがしばしば見られるような,厳格なソーシャルメディアセットにおいても,バイリンガルの語彙を検索できることを新たに発見する。
本手法は, 単言語コーパス, 種子レキシコン, その他の資源を必要としない。
さらに、ヨーロッパ3つの言語ペアをまたいで、多言語単語埋め込みが単語の豊かな意味表現を実際に学習し、制約のある近距離標本を用いて実質的な二言語レキシコンを検索できることを観察する。
クリーンテキストと騒がしいソーシャルメディアデータセットの両方にまたがる設定、およびリソース豊富な言語ペアとリソース不足の言語ペアにおける潜在的理由と下流アプリケーションについて検討する。
関連論文リスト
- Progressive Sentiment Analysis for Code-Switched Text Data [26.71396390928905]
私たちは、ラベル付きリソース豊富な言語データセットと、ラベルなしのコード変更データを持つコード変更感情分析に重点を置いています。
資源豊富な言語と低リソース言語を区別する枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-25T23:13:53Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Expanding Pretrained Models to Thousands More Languages via
Lexicon-based Adaptation [133.7313847857935]
我々の研究は、NLPメソッドが現在の技術で不足している何千もの言語にどのように適応できるかを強調した。
3つのタスクにまたがる19の非表現言語に対して、我々の手法は、それぞれ追加のモノリンガルテキストによる最大5点と15点の改善をもたらす。
論文 参考訳(メタデータ) (2022-03-17T16:48:22Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Cross-Lingual Word Embeddings for Turkic Languages [1.418033127602866]
言語間の単語埋め込みは、リソース豊富な言語から低リソース言語に知識を移すことができる。
トルコ語、ウズベク語、アゼリ語、カザフ語、キルギス語に言語間単語を埋め込む方法を示す。
論文 参考訳(メタデータ) (2020-05-17T18:57:23Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。