論文の概要: Unsupervised Bilingual Lexicon Induction for Low Resource Languages
- arxiv url: http://arxiv.org/abs/2412.16894v1
- Date: Sun, 22 Dec 2024 07:07:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:59:49.780138
- Title: Unsupervised Bilingual Lexicon Induction for Low Resource Languages
- Title(参考訳): 低資源言語のための教師なしバイリンガル語彙誘導
- Authors: Charitha Rathnayake, P. R. S. Thilakarathna, Uthpala Nethmini, Rishemjith Kaur, Surangika Ranathunga,
- Abstract要約: 一般的に使用されているUBLIフレームワークであるVecMapの教師なしバージョンを使用します。
LRLペア,イングリッシュ・シンハラ,イングリッシュ・タミル,イングリッシュ・パンジャービを用いた総合的な実験を行った。
これらの実験は、拡張の最良の組み合わせを特定するのに役立ちました。
- 参考スコア(独自算出の注目度): 0.9653538131757154
- License:
- Abstract: Bilingual lexicons play a crucial role in various Natural Language Processing tasks. However, many low-resource languages (LRLs) do not have such lexicons, and due to the same reason, cannot benefit from the supervised Bilingual Lexicon Induction (BLI) techniques. To address this, unsupervised BLI (UBLI) techniques were introduced. A prominent technique in this line is structure-based UBLI. It is an iterative method, where a seed lexicon, which is initially learned from monolingual embeddings is iteratively improved. There have been numerous improvements to this core idea, however they have been experimented with independently of each other. In this paper, we investigate whether using these techniques simultaneously would lead to equal gains. We use the unsupervised version of VecMap, a commonly used structure-based UBLI framework, and carry out a comprehensive set of experiments using the LRL pairs, English-Sinhala, English-Tamil, and English-Punjabi. These experiments helped us to identify the best combination of the extensions. We also release bilingual dictionaries for English-Sinhala and English-Punjabi.
- Abstract(参考訳): バイリンガル辞書は様々な自然言語処理タスクにおいて重要な役割を果たしている。
しかし、多くの低リソース言語(LRL)はそのような語彙を持っておらず、同じ理由から、監督されたバイリンガル・レキシコン誘導(BLI)技術の恩恵を受けることができない。
これを解決するために、unsupervised BLI (UBLI) 技術が導入された。
このラインで顕著なテクニックは、構造ベースのUBLIである。
当初モノリンガル埋め込みから学習された種子レキシコンを反復的に改良する反復的方法である。
このコアアイデアには多くの改善があるが、互いに独立して実験されている。
本稿では,これらの手法を同時に使用すれば,同等の利得が得られるかどうかを考察する。
一般に使用されているUBLIフレームワークであるVecMapの教師なしバージョンを使用し、LRLペア、イングリッシュ・シンハラ、イングリッシュ・タミル、イングリッシュ・パンジャービを用いて包括的な実験を行う。
これらの実験は、拡張の最良の組み合わせを特定するのに役立ちました。
また、イングリッシュ・シンハラとイングリッシュ・パンジャービのためのバイリンガル辞書もリリースしています。
関連論文リスト
- Dictionary Insertion Prompting for Multilingual Reasoning on Multilingual Large Language Models [52.00446751692225]
textbfDictionary textbfInsertion textbfPrompting (textbfDIP) という,新規かつシンプルで効果的な方法を提案する。
非英語のプロンプトを提供する際、DIPは単語辞書を調べ、単語の英語のプロンプトをLLMのプロンプトに挿入する。
そして、英語へのより良い翻訳とより良い英語モデル思考のステップを可能にし、明らかにより良い結果をもたらす。
論文 参考訳(メタデータ) (2024-11-02T05:10:50Z) - Self-Augmented In-Context Learning for Unsupervised Word Translation [23.495503962839337]
大規模言語モデル (LLMs) は、強力な単語翻訳やバイリンガル語彙誘導(BLI)機能を示す。
教師なしBLIのための自己拡張型インコンテキスト学習(SAIL)を提案する。
提案手法は,2つの確立したBLIベンチマーク上でのLDMのゼロショットプロンプトよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-15T15:43:05Z) - On Bilingual Lexicon Induction with Large Language Models [81.6546357879259]
本稿では,バイリンガル辞書開発における次世代大規模言語モデルの可能性について検討する。
本研究では,1) 教師なしBLIにおけるゼロショットプロンプトと,2) シード翻訳ペアの組による少数ショットインコンテキストプロンプトについて検討する。
私たちの研究は、テキストからテキストへのmLLMの強力なBLI機能を示す最初のものです。
論文 参考訳(メタデータ) (2023-10-21T12:43:27Z) - When your Cousin has the Right Connections: Unsupervised Bilingual Lexicon Induction for Related Data-Imbalanced Languages [29.346191691508125]
非教師付きバイリンガルレキシコン誘導は、大規模なデータセットが利用できない低リソース言語にとって最も有用である。
文献における最先端のBLI手法は,データ不均衡な言語ペアに対してほぼゼロに近い性能を示す。
本稿では,関連するLRLとHRLの間には,HRLのマスキング言語モデルに対してのみ推論を必要とする,教師なしBLIの新たな手法を提案する。
論文 参考訳(メタデータ) (2023-05-23T12:49:21Z) - Improving Bilingual Lexicon Induction with Cross-Encoder Reranking [31.142790337451366]
BLICEr (BLI with Cross-Encoder Re rank) と呼ばれる新しい半教師付きポストホックリグレード法を提案する。
鍵となる考え方は、mPLMから言語間の語彙的知識を抽出し、元のCLWEと組み合わせることである。
BLICErは、多様な言語にまたがる2つの標準BLIベンチマークで、新しい結果を確立している。
論文 参考訳(メタデータ) (2022-10-30T21:26:07Z) - Don't Forget Cheap Training Signals Before Building Unsupervised
Bilingual Word Embeddings [64.06041300946517]
我々は、教師なしBWE手法を開発する際には、容易にアクセスできる言語間信号が常に考慮されるべきであると主張している。
このような安価な信号はうまく動作し、遠隔言語対においてより複雑な教師なし手法により性能が向上することを示す。
この結果から,BWEを構築する際には,遠隔言語であっても,これらの学習信号を無視すべきでないことが示された。
論文 参考訳(メタデータ) (2022-05-31T12:00:55Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Bilingual Lexicon Induction via Unsupervised Bitext Construction and
Word Alignment [49.3253280592705]
我々は,bitextマイニングと教師なし単語アライメントを組み合わせた手法により,はるかに高品質な語彙を生成可能であることを示す。
私たちの最終モデルは、BUCC 2020共有タスクの最先端を14 $F_1$ポイント、平均12以上の言語ペアで上回ります。
論文 参考訳(メタデータ) (2021-01-01T03:12:42Z) - A Relaxed Matching Procedure for Unsupervised BLI [19.99658962367335]
2つの言語間のより正確なマッチングを見つけるために、緩和されたマッチング手順を提案する。
また、ソースとターゲット言語を双方向に埋め込むことで、大幅な改善が期待できる。
論文 参考訳(メタデータ) (2020-10-14T13:53:08Z) - Knowledge Distillation for Multilingual Unsupervised Neural Machine
Translation [61.88012735215636]
unsupervised neural machine translation (UNMT) は、最近、いくつかの言語対に対して顕著な結果を得た。
UNMTは単一の言語ペア間でのみ翻訳することができ、同時に複数の言語ペアに対して翻訳結果を生成することはできない。
本稿では,1つのエンコーダと1つのデコーダを用いて13言語間を翻訳する簡単な手法を実証的に紹介する。
論文 参考訳(メタデータ) (2020-04-21T17:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。