論文の概要: When your Cousin has the Right Connections: Unsupervised Bilingual Lexicon Induction for Related Data-Imbalanced Languages
- arxiv url: http://arxiv.org/abs/2305.14012v2
- Date: Mon, 25 Mar 2024 12:51:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 01:39:58.460479
- Title: When your Cousin has the Right Connections: Unsupervised Bilingual Lexicon Induction for Related Data-Imbalanced Languages
- Title(参考訳): コーズンが正しい接続を持つとき:関連データ不均衡言語に対する教師なしバイリンガル語彙誘導
- Authors: Niyati Bafna, Cristina España-Bonet, Josef van Genabith, Benoît Sagot, Rachel Bawden,
- Abstract要約: 非教師付きバイリンガルレキシコン誘導は、大規模なデータセットが利用できない低リソース言語にとって最も有用である。
文献における最先端のBLI手法は,データ不均衡な言語ペアに対してほぼゼロに近い性能を示す。
本稿では,関連するLRLとHRLの間には,HRLのマスキング言語モデルに対してのみ推論を必要とする,教師なしBLIの新たな手法を提案する。
- 参考スコア(独自算出の注目度): 29.346191691508125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most existing approaches for unsupervised bilingual lexicon induction (BLI) depend on good quality static or contextual embeddings requiring large monolingual corpora for both languages. However, unsupervised BLI is most likely to be useful for low-resource languages (LRLs), where large datasets are not available. Often we are interested in building bilingual resources for LRLs against related high-resource languages (HRLs), resulting in severely imbalanced data settings for BLI. We first show that state-of-the-art BLI methods in the literature exhibit near-zero performance for severely data-imbalanced language pairs, indicating that these settings require more robust techniques. We then present a new method for unsupervised BLI between a related LRL and HRL that only requires inference on a masked language model of the HRL, and demonstrate its effectiveness on truly low-resource languages Bhojpuri and Magahi (with <5M monolingual tokens each), against Hindi. We further present experiments on (mid-resource) Marathi and Nepali to compare approach performances by resource range, and release our resulting lexicons for five low-resource Indic languages: Bhojpuri, Magahi, Awadhi, Braj, and Maithili, against Hindi.
- Abstract(参考訳): 既存のBLI(unsupervised bilingual lexicon induction)のアプローチの多くは、両方の言語に対して大きなモノリンガルコーパスを必要とする、高品質な静的または文脈的な埋め込みに依存している。
しかし、教師なしのBLIは、大規模なデータセットが利用できない低リソース言語(LRL)にとって最も有用である可能性が高い。
我々はしばしば、関連する高リソース言語(HRL)に対してLRLのためのバイリンガルリソースを構築することに興味を持ち、その結果、BLIのデータ設定が著しく不均衡になる。
文献中の最先端のBLI手法は、データ不均衡な言語ペアに対してほぼゼロに近い性能を示し、これらの設定がより堅牢な技術を必要とすることを示す。
次に、関連するLRLとHRLの間で、HRLのマスキング言語モデルのみを推論し、その効果をヒンディー語に対してBhojpuriとMagahi(それぞれ5万個の単言語トークンを持つ)で示す。
さらに、リソース範囲によるアプローチ性能の比較実験を行い、Bhojpuri、Magahi、Awadhi、Braj、Maithiliの5つの低リソースIndic言語(Bhojpuri、Magahi、Awadhi、Maithili)に対する結果のレキシコンをヒンディー語に対してリリースする。
関連論文リスト
- Machine Translation Hallucination Detection for Low and High Resource Languages using Large Language Models [12.447489454369636]
本稿では,Large Language Models (LLM) を用いた文レベルの幻覚検出手法と多言語埋め込みにおける意味的類似性について述べる。
LLMは、いかなる機械翻訳タスクに対しても明示的に訓練されていないにもかかわらず、以前提案されたモデルと同等またはそれ以上の性能を達成することができる。
論文 参考訳(メタデータ) (2024-07-23T13:40:54Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - GlotLID: Language Identification for Low-Resource Languages [51.38634652914054]
GlotLID-M は広い範囲、信頼性、効率性のデシラタを満たす LID モデルである。
1665の言語を識別し、以前の作業に比べてカバー範囲が大幅に増加した。
論文 参考訳(メタデータ) (2023-10-24T23:45:57Z) - On Bilingual Lexicon Induction with Large Language Models [81.6546357879259]
本稿では,バイリンガル辞書開発における次世代大規模言語モデルの可能性について検討する。
本研究では,1) 教師なしBLIにおけるゼロショットプロンプトと,2) シード翻訳ペアの組による少数ショットインコンテキストプロンプトについて検討する。
私たちの研究は、テキストからテキストへのmLLMの強力なBLI機能を示す最初のものです。
論文 参考訳(メタデータ) (2023-10-21T12:43:27Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - CharSpan: Utilizing Lexical Similarity to Enable Zero-Shot Machine
Translation for Extremely Low-resource Languages [22.51558549091902]
我々は,超低リソース言語 (ELRL) から英語への機械翻訳 (MT) の課題を,「近縁」な高リソース言語 (HRL) からの言語間移動を活用して解決する。
多くのERRLは、いくつかのHRLと語彙的類似性を共有しており、新しいモデリングの機会を提供する。
既存のサブワードベースのニューラルMTモデルは、HRLとELRLの埋め込み空間を暗黙的に調整するだけであるため、この語彙的類似性を明示的に利用しない。
HRLのトレーニングデータに「文字スパンノイズ増強」に基づく新しいCharSpanアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-09T07:23:01Z) - Overlap-based Vocabulary Generation Improves Cross-lingual Transfer
Among Related Languages [18.862296065737347]
語彙重なりの次元に沿った言語族における言語間の関連性は、LRLのコーパス制限を克服するために活用される可能性がある。
そこで我々は,BPE語彙生成アルゴリズムを改良したOverlap BPEを提案する。
論文 参考訳(メタデータ) (2022-03-03T19:35:24Z) - Exploiting Language Relatedness for Low Web-Resource Language Model
Adaptation: An Indic Languages Study [14.34516262614775]
言語族における言語間の関連性は、LRLのコーパス制限を克服するために悪用される可能性があると論じる。
我々はインドの言語に焦点をあて,(1)スクリプト(ブラフミック文字から派生した多くのインデックススクリプト)と(2)文構造という2つの次元に沿った関連性を活用する。
論文 参考訳(メタデータ) (2021-06-07T20:43:02Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Anchor-based Bilingual Word Embeddings for Low-Resource Languages [76.48625630211943]
良質な単言語単語埋め込み(MWEs)は、大量のラベルのないテキストを持つ言語向けに構築することができる。
MWEは、数千の単語変換ペアだけでバイリンガル空間に整列することができる。
本稿では,高資源言語におけるベクトル空間を出発点とするBWEの構築手法を提案する。
論文 参考訳(メタデータ) (2020-10-23T19:17:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。