論文の概要: A Simple Approach to Learning Unsupervised Multilingual Embeddings
- arxiv url: http://arxiv.org/abs/2004.05991v2
- Date: Mon, 20 Apr 2020 15:17:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 20:09:34.380252
- Title: A Simple Approach to Learning Unsupervised Multilingual Embeddings
- Title(参考訳): 教師なし多言語組込み学習への簡易的アプローチ
- Authors: Pratik Jawanpuria, Mayank Meghwanshi, Bamdev Mishra
- Abstract要約: バイリンガル・セッティングにおける言語間埋め込みの教師なし学習の最近の進歩は、教師なし言語における共有埋め込み空間の学習に拍車をかけた。
上述の2つのサブプロブレムを分離し,既存の手法を用いて個別に解決する,シンプルな2段階のフレームワークを提案する。
提案手法は,バイリンガル語彙誘導,言語間単語類似性,多言語文書分類,多言語依存性解析など,様々なタスクにおいて驚くほど優れた性能が得られる。
- 参考スコア(独自算出の注目度): 15.963615360741356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress on unsupervised learning of cross-lingual embeddings in
bilingual setting has given impetus to learning a shared embedding space for
several languages without any supervision. A popular framework to solve the
latter problem is to jointly solve the following two sub-problems: 1) learning
unsupervised word alignment between several pairs of languages, and 2) learning
how to map the monolingual embeddings of every language to a shared
multilingual space. In contrast, we propose a simple, two-stage framework in
which we decouple the above two sub-problems and solve them separately using
existing techniques. The proposed approach obtains surprisingly good
performance in various tasks such as bilingual lexicon induction, cross-lingual
word similarity, multilingual document classification, and multilingual
dependency parsing. When distant languages are involved, the proposed solution
illustrates robustness and outperforms existing unsupervised multilingual word
embedding approaches. Overall, our experimental results encourage development
of multi-stage models for such challenging problems.
- Abstract(参考訳): バイリンガルセッティングにおける言語間埋め込みの教師なし学習の最近の進歩は、教師なしの複数の言語に対する共有埋め込み空間の学習に拍車をかけた。
後者の問題を解決するための一般的な枠組みは、以下の2つのサブ問題を共同で解決することである。
1)複数の言語間の教師なしの単語アライメントの学習、
2) 各言語の単言語埋め込みを共有多言語空間にマップする方法を学ぶ。
対照的に,上記の2つのサブ問題を分離して,既存の手法で別々に解く,単純で2段階のフレームワークを提案する。
提案手法は,バイリンガル語彙誘導,言語間単語類似性,多言語文書分類,多言語依存性解析などのタスクにおいて,驚くほど優れた性能が得られる。
遠隔言語が関与する場合、提案手法は頑健性を示し、既存の教師なし多言語単語埋め込みアプローチよりも優れている。
実験結果から,このような課題に対する多段階モデルの開発が促進された。
関連論文リスト
- Improving In-context Learning of Multilingual Generative Language Models with Cross-lingual Alignment [42.624862172666624]
本稿では,一対の翻訳文を利用する単純な言語間アライメントフレームワークを提案する。
多言語コントラスト学習を通じて、異なる言語にまたがる内部文表現を整合させる。
実験結果から,事前学習トークンが0.1文未満であっても,アライメントフレームワークは生成言語モデルの言語間相互性を大幅に向上させることが明らかとなった。
論文 参考訳(メタデータ) (2023-11-14T11:24:08Z) - Multi-level Contrastive Learning for Cross-lingual Spoken Language
Understanding [90.87454350016121]
コントラスト学習のための難解なサンプルを, あらゆるレベルで生成するコードスイッチング手法を開発した。
言語間知識伝達にラベルセマンティクスを利用するラベル認識ジョイントモデルを開発した。
論文 参考訳(メタデータ) (2022-05-07T13:44:28Z) - On Efficiently Acquiring Annotations for Multilingual Models [12.304046317362792]
一つのモデルを用いて複数の言語にまたがる共同学習の戦略は、上記の選択肢よりもかなり優れていることを示す。
この単純なアプローチにより、アノテーションの予算を不確実な言語に問い合わせることによって、モデルがデータ効率を向上できることを示す。
論文 参考訳(メタデータ) (2022-04-03T07:42:13Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z) - CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot
Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。
既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文 参考訳(メタデータ) (2020-06-11T13:15:59Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。