論文の概要: On a Novel Application of Wasserstein-Procrustes for Unsupervised
Cross-Lingual Learning
- arxiv url: http://arxiv.org/abs/2007.09456v1
- Date: Sat, 18 Jul 2020 15:35:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 05:07:16.857478
- Title: On a Novel Application of Wasserstein-Procrustes for Unsupervised
Cross-Lingual Learning
- Title(参考訳): 教師なし言語間学習におけるWasserstein-Procrustesの新しい応用について
- Authors: Guillem Ram\'irez, Rumen Dangovski, Preslav Nakov, Marin
Solja\v{c}i\'c
- Abstract要約: 教師なしの単語埋め込みは、非常に大きな単言語テキストコーパスで事前訓練される。
We developed an approach to solve Wasserstein-Procrustes by a direct way。
- 参考スコア(独自算出の注目度): 20.811611432130935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of unsupervised word embeddings, pre-trained on very large
monolingual text corpora, is at the core of the ongoing neural revolution in
Natural Language Processing (NLP). Initially introduced for English, such
pre-trained word embeddings quickly emerged for a number of other languages.
Subsequently, there have been a number of attempts to align the embedding
spaces across languages, which could enable a number of cross-language NLP
applications. Performing the alignment using unsupervised cross-lingual
learning (UCL) is especially attractive as it requires little data and often
rivals supervised and semi-supervised approaches. Here, we analyze popular
methods for UCL and we find that often their objectives are, intrinsically,
versions of the Wasserstein-Procrustes problem. Hence, we devise an approach to
solve Wasserstein-Procrustes in a direct way, which can be used to refine and
to improve popular UCL methods such as iterative closest point (ICP),
multilingual unsupervised and supervised embeddings (MUSE) and supervised
Procrustes methods. Our evaluation experiments on standard datasets show
sizable improvements over these approaches. We believe that our rethinking of
the Wasserstein-Procrustes problem could enable further research, thus helping
to develop better algorithms for aligning word embeddings across languages. Our
code and instructions to reproduce the experiments are available at
https://github.com/guillemram97/wp-hungarian.
- Abstract(参考訳): 非常に大きなモノリンガルテキストコーパスで事前訓練された、教師なしの単語埋め込みの出現は、自然言語処理(NLP)における現在進行中の神経革命の中核にある。
当初英語に導入され、そのような事前訓練された単語の埋め込みは、他の多くの言語ですぐに現れた。
その後、言語にまたがる埋め込み空間を整列させる試みが数多く行われており、多くの言語横断nlpアプリケーションを可能にしている。
教師なし言語学習(UCL)を用いてアライメントを実行することは、ほとんどデータを必要としないため、特に魅力的である。
ここでは,uclの一般的な手法を分析し,その目的が本質的にwasserstein-procrustes問題であることが多いことを明らかにした。
そこで我々は,wasserstein-procrustesを直接解く手法を考案し,反復的最接近点 (icp) や多言語非教師なし・教師なし埋め込み (muse) ,教師付きprocrustes 法などの一般的な ucl 法を改善し,改良することができる。
標準データセットに対する評価実験では,これらの手法よりも大きな改善が見られた。
我々は、Wasserstein-Procrustes問題を再考することで、さらなる研究が可能になり、言語間の単語埋め込みを調整するためのより良いアルゴリズムの開発に役立つと考えている。
実験を再現するためのコードとインストラクションは、https://github.com/guillemram97/wp-hungarianで利用可能です。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Acoustic Word Embeddings for Untranscribed Target Languages with
Continued Pretraining and Learned Pooling [28.758396218435635]
音響単語の埋め込みは、単語のような一対の単位を用いてプール関数を訓練することによって生成される。
自己教師型英語モデルからの平均プール表現は、有望な代替案として提案されたが、ターゲット言語でのそれらのパフォーマンスは、完全には競合しなかった。
両手法が単語識別における近年のアプローチより優れていることを示す。
論文 参考訳(メタデータ) (2023-06-03T16:44:21Z) - Multilingual LLMs are Better Cross-lingual In-context Learners with
Alignment [24.742581572364124]
インコンテキスト学習(ICL)は、大規模言語モデルが勾配更新なしでいくつかのラベル付きサンプルに条件付きテストラベルを推測できるようになり、展開される。
言語間テキスト分類のためのICLの詳細な分析を行う。
我々は新しいプロンプト・コンストラクション・ストラテジ--クロスランガルなインコンテキスト・ソース・ターゲットアライメント(X-InSTA)を提案する。
論文 参考訳(メタデータ) (2023-05-10T07:24:36Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Multi-level Contrastive Learning for Cross-lingual Spoken Language
Understanding [90.87454350016121]
コントラスト学習のための難解なサンプルを, あらゆるレベルで生成するコードスイッチング手法を開発した。
言語間知識伝達にラベルセマンティクスを利用するラベル認識ジョイントモデルを開発した。
論文 参考訳(メタデータ) (2022-05-07T13:44:28Z) - Bridging the Gap between Language Models and Cross-Lingual Sequence
Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。
大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。
本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。
第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文 参考訳(メタデータ) (2022-04-11T15:55:20Z) - Unsupervised Alignment of Distributional Word Embeddings [0.0]
クロスドメインアライメントは、機械翻訳から伝達学習までのタスクにおいて重要な役割を果たす。
提案手法は,複数の言語対をまたいだバイリンガル語彙誘導タスクにおいて,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-03-09T16:39:06Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。