論文の概要: Unsupervised Bilingual Lexicon Induction Across Writing Systems
- arxiv url: http://arxiv.org/abs/2002.00037v1
- Date: Fri, 31 Jan 2020 19:48:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 06:31:43.208712
- Title: Unsupervised Bilingual Lexicon Induction Across Writing Systems
- Title(参考訳): 非教師付きバイリンガルレキシコン誘導筆記システム
- Authors: Parker Riley and Daniel Gildea
- Abstract要約: この研究は、直観的特徴を持つ最先端の手法を拡張し、この分野における先行作業を拡張した。
異なるスクリプトと様々な語彙的類似度を持つ3つの言語ペアを実験してこれを実証する。
- 参考スコア(独自算出の注目度): 18.060811225974568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent embedding-based methods in unsupervised bilingual lexicon induction
have shown good results, but generally have not leveraged orthographic
(spelling) information, which can be helpful for pairs of related languages.
This work augments a state-of-the-art method with orthographic features, and
extends prior work in this space by proposing methods that can learn and
utilize orthographic correspondences even between languages with different
scripts. We demonstrate this by experimenting on three language pairs with
different scripts and varying degrees of lexical similarity.
- Abstract(参考訳): 非教師付きバイリンガル語彙誘導における最近の埋め込みに基づく手法は良い結果を示しているが、一般的には関連する言語のペアに役立つ正書法(スペル)情報を活用していない。
本研究は正書法的特徴を持つ最先端の手法を補強し、異なるスクリプトを持つ言語間でも正書法対応を学習し活用できる手法を提案することにより、この分野の先行研究を拡大するものである。
異なるスクリプトと様々な語彙的類似度を持つ3つの言語ペアを実験してこれを実証する。
関連論文リスト
- Semi-Supervised Learning for Bilingual Lexicon Induction [1.8130068086063336]
本稿では,言語に対応する2つの連続語表現の集合を共通空間に整列させてバイリンガル語彙を推論する問題を考察する。
標準ベンチマークの実験では、英語から20言語以上の言語に辞書を推論し、我々のアプローチが既存の技術ベンチマークを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2024-02-10T19:27:22Z) - Enhancing Cross-lingual Transfer via Phonemic Transcription Integration [57.109031654219294]
PhoneXLは、音素転写を言語間移動のための追加のモダリティとして組み込んだフレームワークである。
本研究は, 音素転写が, 言語間移動を促進するために, 正書法以外の重要な情報を提供することを示すものである。
論文 参考訳(メタデータ) (2023-07-10T06:17:33Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Word Embedding Transformation for Robust Unsupervised Bilingual Lexicon
Induction [21.782189001319935]
2つの言語の埋め込みの同型性を高めるための変換に基づく手法を提案する。
我々の手法は最先端の手法と比較して、競争力や優れた性能を達成することができる。
論文 参考訳(メタデータ) (2021-05-26T02:09:58Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - Multi-Adversarial Learning for Cross-Lingual Word Embeddings [19.407717032782863]
言語間単語の埋め込みを誘導する新しい手法を提案する。
複数のマッピングを通じてシード言語間の辞書を誘導し、それぞれが1つの部分空間のマッピングに適合するように誘導される。
教師なしバイリンガルレキシコン誘導実験により, 従来のシングルマッピング法よりも性能が向上することが示された。
論文 参考訳(メタデータ) (2020-10-16T14:54:28Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z) - Refinement of Unsupervised Cross-Lingual Word Embeddings [2.4366811507669124]
言語間の単語埋め込みは、高リソース言語と低リソース言語のギャップを埋めることを目的としています。
教師なしバイリンガル単語埋め込みのアライメントを改良する自己教師付き手法を提案する。
論文 参考訳(メタデータ) (2020-02-21T10:39:53Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。