論文の概要: Semi-Supervised Learning for Bilingual Lexicon Induction
- arxiv url: http://arxiv.org/abs/2402.07028v1
- Date: Sat, 10 Feb 2024 19:27:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 17:54:50.138320
- Title: Semi-Supervised Learning for Bilingual Lexicon Induction
- Title(参考訳): バイリンガル語彙誘導のための半教師付き学習
- Authors: Paul Garnier and Gauthier Guinet
- Abstract要約: 本稿では,言語に対応する2つの連続語表現の集合を共通空間に整列させてバイリンガル語彙を推論する問題を考察する。
標準ベンチマークの実験では、英語から20言語以上の言語に辞書を推論し、我々のアプローチが既存の技術ベンチマークを一貫して上回っていることを示す。
- 参考スコア(独自算出の注目度): 1.8130068086063336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the problem of aligning two sets of continuous word
representations, corresponding to languages, to a common space in order to
infer a bilingual lexicon. It was recently shown that it is possible to infer
such lexicon, without using any parallel data, by aligning word embeddings
trained on monolingual data. Such line of work is called unsupervised bilingual
induction. By wondering whether it was possible to gain experience in the
progressive learning of several languages, we asked ourselves to what extent we
could integrate the knowledge of a given set of languages when learning a new
one, without having parallel data for the latter. In other words, while keeping
the core problem of unsupervised learning in the latest step, we allowed the
access to other corpora of idioms, hence the name semi-supervised. This led us
to propose a novel formulation, considering the lexicon induction as a ranking
problem for which we used recent tools of this machine learning field. Our
experiments on standard benchmarks, inferring dictionary from English to more
than 20 languages, show that our approach consistently outperforms existing
state of the art benchmark. In addition, we deduce from this new scenario
several relevant conclusions allowing a better understanding of the alignment
phenomenon.
- Abstract(参考訳): 本稿では,言語に対応する2つの連続語表現の集合を共通空間に整列させてバイリンガル語彙を推論する問題を考察する。
近年、単言語データで訓練された単語埋め込みを整合させることで、並列データを用いずに、そのようなレキシコンを推測できることが示されている。
このような作業は教師なしバイリンガル誘導 (unsupervised bilingual induction) と呼ばれる。
いくつかの言語のプログレッシブ学習で経験を積むことができるかどうか疑問に思うことで、我々は、ある言語セットの知識を、新しい言語を学習する際にどの程度統合できるかを、後者の並列データなしで、自問自答した。
言い換えれば、教師なし学習の核となる問題を最新の段階に保ちながら、私たちは他のコーパスのイディオムへのアクセスを可能にしました。
そこで我々は,この機械学習分野の最近のツールを用いたランキング問題として,レキシコン誘導を考慮した新しい定式化を提案する。
標準ベンチマークに関する実験では、英語から20以上の言語に辞書を推論することで、既存の技術ベンチマークを一貫して上回っています。
さらに、この新たなシナリオから、アライメント現象をよりよく理解できるいくつかの関連する結論を導き出す。
関連論文リスト
- Decoupled Vocabulary Learning Enables Zero-Shot Translation from Unseen Languages [55.157295899188476]
ニューラルマシン翻訳システムは、異なる言語の文を共通の表現空間にマッピングすることを学ぶ。
本研究では、この仮説を未知の言語からのゼロショット翻訳により検証する。
この設定により、全く見えない言語からのゼロショット翻訳が可能になることを実証する。
論文 参考訳(メタデータ) (2024-08-05T07:58:58Z) - How Lexical is Bilingual Lexicon Induction? [1.3610643403050855]
近年の検索・ランクアプローチに語彙情報を追加することで,語彙誘導が向上すると考えられる。
提案手法の有効性を実証し,全言語対で平均2%改善した。
論文 参考訳(メタデータ) (2024-04-05T17:10:33Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Bilingual Lexicon Induction via Unsupervised Bitext Construction and
Word Alignment [49.3253280592705]
我々は,bitextマイニングと教師なし単語アライメントを組み合わせた手法により,はるかに高品質な語彙を生成可能であることを示す。
私たちの最終モデルは、BUCC 2020共有タスクの最先端を14 $F_1$ポイント、平均12以上の言語ペアで上回ります。
論文 参考訳(メタデータ) (2021-01-01T03:12:42Z) - Beyond Offline Mapping: Learning Cross Lingual Word Embeddings through
Context Anchoring [41.77270308094212]
英語以外の言語における単語埋め込みのための代替マッピング手法を提案する。
2つの固定埋め込み空間を整列させるのではなく、対象言語埋め込みを固定し、それらに整列したソースコード言語に対する新しい埋め込み集合を学習することで機能する。
提案手法は,従来のバイリンガル語彙誘導法よりも優れており,下流XNLIタスクにおける競合結果が得られる。
論文 参考訳(メタデータ) (2020-12-31T17:10:14Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Knowledge Distillation for Multilingual Unsupervised Neural Machine
Translation [61.88012735215636]
unsupervised neural machine translation (UNMT) は、最近、いくつかの言語対に対して顕著な結果を得た。
UNMTは単一の言語ペア間でのみ翻訳することができ、同時に複数の言語ペアに対して翻訳結果を生成することはできない。
本稿では,1つのエンコーダと1つのデコーダを用いて13言語間を翻訳する簡単な手法を実証的に紹介する。
論文 参考訳(メタデータ) (2020-04-21T17:26:16Z) - A Simple Approach to Learning Unsupervised Multilingual Embeddings [15.963615360741356]
バイリンガル・セッティングにおける言語間埋め込みの教師なし学習の最近の進歩は、教師なし言語における共有埋め込み空間の学習に拍車をかけた。
上述の2つのサブプロブレムを分離し,既存の手法を用いて個別に解決する,シンプルな2段階のフレームワークを提案する。
提案手法は,バイリンガル語彙誘導,言語間単語類似性,多言語文書分類,多言語依存性解析など,様々なタスクにおいて驚くほど優れた性能が得られる。
論文 参考訳(メタデータ) (2020-04-10T05:54:10Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。