論文の概要: A Simple Method for Unsupervised Bilingual Lexicon Induction for
Data-Imbalanced, Closely Related Language Pairs
- arxiv url: http://arxiv.org/abs/2305.14012v1
- Date: Tue, 23 May 2023 12:49:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 16:30:51.372065
- Title: A Simple Method for Unsupervised Bilingual Lexicon Induction for
Data-Imbalanced, Closely Related Language Pairs
- Title(参考訳): データ不均衡・密接な言語ペアのための教師なしバイリンガル語彙誘導法
- Authors: Niyati Bafna, Cristina Espa\~na-Bonet, Josef van Genabith, Beno\^it
Sagot, Rachel Bawden
- Abstract要約: 本稿では,低リソース言語と関連する中~高リソース言語に対して,教師なしBLIの簡易かつ高速な手法を提案する。
文献における最先端の手法は,これらの設定においてほぼゼロに近い性能を示すことを示す。
Indic 方言連続語の5言語に対して,初めてバイリンガル語彙を自動生成する。
- 参考スコア(独自算出の注目度): 21.55698479393905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing approaches for unsupervised bilingual lexicon induction (BLI) often
depend on good quality static or contextual embeddings trained on large
monolingual corpora for both languages. In reality, however, unsupervised BLI
is most likely to be useful for dialects and languages that do not have
abundant amounts of monolingual data. We introduce a simple and fast method for
unsupervised BLI for low-resource languages with a related mid-to-high resource
language, only requiring inference on the higher-resource language monolingual
BERT. We work with two low-resource languages ($<5M$ monolingual tokens),
Bhojpuri and Magahi, of the severely under-researched Indic dialect continuum,
showing that state-of-the-art methods in the literature show near-zero
performance in these settings, and that our simpler method gives much better
results. We repeat our experiments on Marathi and Nepali, two higher-resource
Indic languages, to compare approach performances by resource range. We release
automatically created bilingual lexicons for the first time for five languages
of the Indic dialect continuum.
- Abstract(参考訳): 既存のBLI(unsupervised bilingual lexicon induction)のアプローチは、両方の言語に対して大きな単言語コーパスで訓練された高品質な静的または文脈的な埋め込みに依存することが多い。
しかし、実際には、教師なしのBLIは、大量の単言語データを持たない方言や言語にとって最も有用である可能性が高い。
本稿では,高資源言語である単言語bertの推論のみを必要とする低資源言語に対して,教師なしbliの簡易かつ高速な手法を提案する。
我々は2つの低リソース言語($<5M$ monolingual tokens)、Bhojpuri と Magahi を用いて研究を行い、文献中の最先端の手法がこれらの設定においてほぼゼロに近い性能を示し、より単純な手法がより優れた結果をもたらすことを示した。
我々は,マラーティー語とネパール語について実験を繰り返し,資源範囲によるアプローチ性能の比較を行った。
方言連続体の5つの言語で, 自動生成された二言語レキシコンを初めてリリースする。
関連論文リスト
- Machine Translation Hallucination Detection for Low and High Resource Languages using Large Language Models [12.447489454369636]
本稿では,Large Language Models (LLM) を用いた文レベルの幻覚検出手法と多言語埋め込みにおける意味的類似性について述べる。
LLMは、いかなる機械翻訳タスクに対しても明示的に訓練されていないにもかかわらず、以前提案されたモデルと同等またはそれ以上の性能を達成することができる。
論文 参考訳(メタデータ) (2024-07-23T13:40:54Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - GlotLID: Language Identification for Low-Resource Languages [51.38634652914054]
GlotLID-M は広い範囲、信頼性、効率性のデシラタを満たす LID モデルである。
1665の言語を識別し、以前の作業に比べてカバー範囲が大幅に増加した。
論文 参考訳(メタデータ) (2023-10-24T23:45:57Z) - On Bilingual Lexicon Induction with Large Language Models [81.6546357879259]
本稿では,バイリンガル辞書開発における次世代大規模言語モデルの可能性について検討する。
本研究では,1) 教師なしBLIにおけるゼロショットプロンプトと,2) シード翻訳ペアの組による少数ショットインコンテキストプロンプトについて検討する。
私たちの研究は、テキストからテキストへのmLLMの強力なBLI機能を示す最初のものです。
論文 参考訳(メタデータ) (2023-10-21T12:43:27Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - CharSpan: Utilizing Lexical Similarity to Enable Zero-Shot Machine
Translation for Extremely Low-resource Languages [22.51558549091902]
我々は,超低リソース言語 (ELRL) から英語への機械翻訳 (MT) の課題を,「近縁」な高リソース言語 (HRL) からの言語間移動を活用して解決する。
多くのERRLは、いくつかのHRLと語彙的類似性を共有しており、新しいモデリングの機会を提供する。
既存のサブワードベースのニューラルMTモデルは、HRLとELRLの埋め込み空間を暗黙的に調整するだけであるため、この語彙的類似性を明示的に利用しない。
HRLのトレーニングデータに「文字スパンノイズ増強」に基づく新しいCharSpanアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-09T07:23:01Z) - Overlap-based Vocabulary Generation Improves Cross-lingual Transfer
Among Related Languages [18.862296065737347]
語彙重なりの次元に沿った言語族における言語間の関連性は、LRLのコーパス制限を克服するために活用される可能性がある。
そこで我々は,BPE語彙生成アルゴリズムを改良したOverlap BPEを提案する。
論文 参考訳(メタデータ) (2022-03-03T19:35:24Z) - Exploiting Language Relatedness for Low Web-Resource Language Model
Adaptation: An Indic Languages Study [14.34516262614775]
言語族における言語間の関連性は、LRLのコーパス制限を克服するために悪用される可能性があると論じる。
我々はインドの言語に焦点をあて,(1)スクリプト(ブラフミック文字から派生した多くのインデックススクリプト)と(2)文構造という2つの次元に沿った関連性を活用する。
論文 参考訳(メタデータ) (2021-06-07T20:43:02Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Anchor-based Bilingual Word Embeddings for Low-Resource Languages [76.48625630211943]
良質な単言語単語埋め込み(MWEs)は、大量のラベルのないテキストを持つ言語向けに構築することができる。
MWEは、数千の単語変換ペアだけでバイリンガル空間に整列することができる。
本稿では,高資源言語におけるベクトル空間を出発点とするBWEの構築手法を提案する。
論文 参考訳(メタデータ) (2020-10-23T19:17:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。