論文の概要: Very Low Resource Sentence Alignment: Luhya and Swahili
- arxiv url: http://arxiv.org/abs/2211.00046v1
- Date: Mon, 31 Oct 2022 18:01:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 13:52:52.370126
- Title: Very Low Resource Sentence Alignment: Luhya and Swahili
- Title(参考訳): 非常に低い資源文のアライメント:luhyaとswahili
- Authors: Everlyn Asiko Chimoto and Bruce A. Bassett
- Abstract要約: 我々は,Luhya と Swahili の2つの低リソースアフリカ言語に対して bitext を抽出するために LASER と LaBSE を試験した。
LaBSE は両方の言語で LASER を著しく上回っていることがわかった。
パラレルなLuhya文の集合への埋め込みを微調整し、LaBSEアライメント精度を53.3%に向上した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language-agnostic sentence embeddings generated by pre-trained models such as
LASER and LaBSE are attractive options for mining large datasets to produce
parallel corpora for low-resource machine translation. We test LASER and LaBSE
in extracting bitext for two related low-resource African languages: Luhya and
Swahili. For this work, we created a new parallel set of nearly 8000
Luhya-English sentences which allows a new zero-shot test of LASER and LaBSE.
We find that LaBSE significantly outperforms LASER on both languages. Both
LASER and LaBSE however perform poorly at zero-shot alignment on Luhya,
achieving just 1.5% and 22.0% successful alignments respectively (P@1 score).
We fine-tune the embeddings on a small set of parallel Luhya sentences and show
significant gains, improving the LaBSE alignment accuracy to 53.3%. Further,
restricting the dataset to sentence embedding pairs with cosine similarity
above 0.7 yielded alignments with over 85% accuracy.
- Abstract(参考訳): LASERやLaBSEのような事前訓練されたモデルによって生成された言語に依存しない文の埋め込みは、大規模なデータセットをマイニングして低リソース機械翻訳のための並列コーパスを生成する魅力的な選択肢である。
我々は,Luhya と Swahili の2つの低リソースアフリカ言語に対して bitext を抽出するために LASER と LaBSE を試験した。
この研究のために、Luhya- English文8000近い新しい並列セットを作成し、LASERとLaBSEの新しいゼロショットテストを可能にした。
LaBSE は両方の言語で LASER よりも優れています。
しかし、LASERとLaBSEはいずれもゼロショットアライメントでは成績が悪く、それぞれ1.5%と22.0%しか成功していない(P@1スコア)。
並列luhya文の小さな集合に埋め込みを微調整し,有意な向上を示し,ラボアライメント精度を53.3%に向上させた。
さらに、データセットを0.7以上のコサイン類似度で文章埋め込みペアに制限すると、85%以上の精度でアライメントが得られる。
関連論文リスト
- NusaMT-7B: Machine Translation for Low-Resource Indonesian Languages with Large Language Models [2.186901738997927]
本稿では,低リソースインドネシア語用機械翻訳モデルであるNusaMT-7Bを紹介する。
提案手法は, 単言語データ, Supervised Fine-Tuning (SFT) , 自己学習, LLMベースのデータクリーナーを併用し, 並列文のノイズを低減する。
この結果から,LLMの微調整により,低リソース言語への翻訳品質が向上し,言語保存や異文化間コミュニケーションに寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-10T11:33:25Z) - EBBS: An Ensemble with Bi-Level Beam Search for Zero-Shot Machine
Translation [28.68463580779035]
ゼロショット翻訳は、第3の言語をピボットすることで実現できる。
本稿では,新しい2レベルビーム探索アルゴリズムを用いたアンサンブル手法であるESBSを提案する。
2つの人気のある多言語翻訳データセットの結果は、ESBSが直接変換とピボット翻訳を一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2024-02-29T21:49:31Z) - Narrowing the Gap between Zero- and Few-shot Machine Translation by
Matching Styles [53.92189950211852]
大規模言語モデルは、文脈内学習を用いたゼロショットと少数ショットの例を用いて、機械翻訳に一般化する能力を示した。
本稿では,このギャップに寄与する要因について検討し,対象コーパスの書字スタイルを一致させることで,このギャップをほとんど(約70%)閉鎖できることを示す。
論文 参考訳(メタデータ) (2023-11-04T03:18:45Z) - On Bilingual Lexicon Induction with Large Language Models [81.6546357879259]
本稿では,バイリンガル辞書開発における次世代大規模言語モデルの可能性について検討する。
本研究では,1) 教師なしBLIにおけるゼロショットプロンプトと,2) シード翻訳ペアの組による少数ショットインコンテキストプロンプトについて検討する。
私たちの研究は、テキストからテキストへのmLLMの強力なBLI機能を示す最初のものです。
論文 参考訳(メタデータ) (2023-10-21T12:43:27Z) - On the Off-Target Problem of Zero-Shot Multilingual Neural Machine
Translation [104.85258654917297]
識別対象言語信号の符号化に失敗すると、オフターゲットとなり、語彙距離が近くなることが判明した。
多言語語彙構築のための言語認識語彙共有(LAVS)を提案する。
我々は11言語で多言語機械翻訳ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2023-05-18T12:43:31Z) - Multilingual Sentence Transformer as A Multilingual Word Aligner [15.689680887384847]
多言語文 Transformer LaBSE が強い多言語単語アライメント器であるかどうかを検討する。
7つの言語対の実験結果から、最も優れたコーディネータは、すべての品種の過去の最先端モデルよりも優れていることが示された。
コーディネータは1つのモデルで異なる言語ペアをサポートし、ファインタニングプロセスに現れないゼロショット言語ペア上で新しい最先端の言語ペアを実現する。
論文 参考訳(メタデータ) (2023-01-28T09:28:55Z) - Tencent AI Lab - Shanghai Jiao Tong University Low-Resource Translation
System for the WMT22 Translation Task [49.916963624249355]
本稿では, Tencent AI Lab - Shanghai Jiao Tong University (TAL-SJTU) Low-Resource Translation system for the WMT22 shared taskについて述べる。
我々は、英語$Leftrightarrow$Livonianの一般的な翻訳作業に参加する。
本システムは,M2M100を対象言語に適応させる新しい手法を用いて構築した。
論文 参考訳(メタデータ) (2022-10-17T04:34:09Z) - OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource
Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。
大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。
実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文 参考訳(メタデータ) (2022-05-17T19:52:42Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z) - Not Low-Resource Anymore: Aligner Ensembling, Batch Filtering, and New
Datasets for Bengali-English Machine Translation [6.2418269277908065]
ベンガル語は世界で7番目に広く話されている言語であるにもかかわらず、資源不足のため機械翻訳文学にはあまり注目されていない。
我々はBengali用にカスタマイズされた文セグメンタを構築し、低リソース環境における並列コーパス生成のための2つの新しい手法を提案する。
セグメンタと2つの手法を組み合わせることで、275万文対からなる高品質なベンガル英語並列コーパスをコンパイルする。
論文 参考訳(メタデータ) (2020-09-20T06:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。