論文の概要: A Simple Method for Unsupervised Bilingual Lexicon Induction for
Data-Imbalanced, Closely Related Language Pairs
- arxiv url: http://arxiv.org/abs/2305.14012v1
- Date: Tue, 23 May 2023 12:49:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 16:30:51.372065
- Title: A Simple Method for Unsupervised Bilingual Lexicon Induction for
Data-Imbalanced, Closely Related Language Pairs
- Title(参考訳): データ不均衡・密接な言語ペアのための教師なしバイリンガル語彙誘導法
- Authors: Niyati Bafna, Cristina Espa\~na-Bonet, Josef van Genabith, Beno\^it
Sagot, Rachel Bawden
- Abstract要約: 本稿では,低リソース言語と関連する中~高リソース言語に対して,教師なしBLIの簡易かつ高速な手法を提案する。
文献における最先端の手法は,これらの設定においてほぼゼロに近い性能を示すことを示す。
Indic 方言連続語の5言語に対して,初めてバイリンガル語彙を自動生成する。
- 参考スコア(独自算出の注目度): 21.55698479393905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing approaches for unsupervised bilingual lexicon induction (BLI) often
depend on good quality static or contextual embeddings trained on large
monolingual corpora for both languages. In reality, however, unsupervised BLI
is most likely to be useful for dialects and languages that do not have
abundant amounts of monolingual data. We introduce a simple and fast method for
unsupervised BLI for low-resource languages with a related mid-to-high resource
language, only requiring inference on the higher-resource language monolingual
BERT. We work with two low-resource languages ($<5M$ monolingual tokens),
Bhojpuri and Magahi, of the severely under-researched Indic dialect continuum,
showing that state-of-the-art methods in the literature show near-zero
performance in these settings, and that our simpler method gives much better
results. We repeat our experiments on Marathi and Nepali, two higher-resource
Indic languages, to compare approach performances by resource range. We release
automatically created bilingual lexicons for the first time for five languages
of the Indic dialect continuum.
- Abstract(参考訳): 既存のBLI(unsupervised bilingual lexicon induction)のアプローチは、両方の言語に対して大きな単言語コーパスで訓練された高品質な静的または文脈的な埋め込みに依存することが多い。
しかし、実際には、教師なしのBLIは、大量の単言語データを持たない方言や言語にとって最も有用である可能性が高い。
本稿では,高資源言語である単言語bertの推論のみを必要とする低資源言語に対して,教師なしbliの簡易かつ高速な手法を提案する。
我々は2つの低リソース言語($<5M$ monolingual tokens)、Bhojpuri と Magahi を用いて研究を行い、文献中の最先端の手法がこれらの設定においてほぼゼロに近い性能を示し、より単純な手法がより優れた結果をもたらすことを示した。
我々は,マラーティー語とネパール語について実験を繰り返し,資源範囲によるアプローチ性能の比較を行った。
方言連続体の5つの言語で, 自動生成された二言語レキシコンを初めてリリースする。
関連論文リスト
- Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Multilingual Word Embeddings for Low-Resource Languages using Anchors
and a Chain of Related Languages [54.832599498774464]
我々は,言語連鎖に基づく新しいアプローチにより,多言語単語埋め込み(MWE)を構築することを提案する。
リソースの豊富なソースから始めて、ターゲットに到達するまで各言語をチェーンに順次追加することで、MWEを一度に1つの言語で構築します。
本手法は,4つの低リソース(5Mトークン)と4つの中程度の低リソース(50M)ターゲット言語を含む4つの言語ファミリーを対象としたバイリンガルレキシコン誘導法について検討した。
論文 参考訳(メタデータ) (2023-11-21T09:59:29Z) - Low-resource Bilingual Dialect Lexicon Induction with Large Language
Models [24.080565202390314]
バイエルン方言とアレマン方言の2つの方言について,バイリンガル語彙誘導パイプラインの解析を行った。
この設定は、リソースの不足、言語の関連性、方言の正書法における標準化の欠如など、いくつかの課題を引き起こす。
論文 参考訳(メタデータ) (2023-04-19T20:20:41Z) - Hindi as a Second Language: Improving Visually Grounded Speech with
Semantically Similar Samples [89.16814518860357]
本研究の目的は,多言語の観点からの視覚的基盤音声モデル(VGS)の学習を検討することである。
この研究における重要な貢献は、低リソース言語の性能を向上させるために、バイリンガルな視覚的基盤を持つ音声モデルにおける高リソース言語のパワーを活用することである。
論文 参考訳(メタデータ) (2023-03-30T16:34:10Z) - Multilingual BERT has an accent: Evaluating English influences on
fluency in multilingual models [23.62852626011989]
我々は,高次情報源言語における文法構造が低次情報源言語に肥大化したことを示す。
このバイアスは、多言語モデルの流布度とモノリンガルのスペイン語とギリシア語のモデルの流布度を比較する新しい方法によって示される。
論文 参考訳(メタデータ) (2022-10-11T17:06:38Z) - Refining Low-Resource Unsupervised Translation by Language
Disentanglement of Multilingual Model [16.872474334479026]
本稿では,事前訓練された多言語UTTモデルから言語を切り離すための簡単な改良手法を提案する。
我々の手法は、ネパール語、シンハラ語、グジャラート語、ラトビア語、エストニア語、カザフ語への英語の完全な教師なし翻訳作業における芸術の状態を達成している。
論文 参考訳(メタデータ) (2022-05-31T05:14:50Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - Anchor-based Bilingual Word Embeddings for Low-Resource Languages [76.48625630211943]
良質な単言語単語埋め込み(MWEs)は、大量のラベルのないテキストを持つ言語向けに構築することができる。
MWEは、数千の単語変換ペアだけでバイリンガル空間に整列することができる。
本稿では,高資源言語におけるベクトル空間を出発点とするBWEの構築手法を提案する。
論文 参考訳(メタデータ) (2020-10-23T19:17:00Z) - Discovering Bilingual Lexicons in Polyglot Word Embeddings [32.53342453685406]
本研究では,多言語単語の埋め込みを生成する多言語コーパスで訓練された1つのスキップグラムモデルを利用する。
本稿では, 比較的単純な近傍サンプリング手法により, バイリンガル辞書を検索できることを示す。
3つのヨーロッパ語対にまたがって、多言語単語の埋め込みは、確かに単語のリッチな意味表現を学習する。
論文 参考訳(メタデータ) (2020-08-31T03:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。