論文の概要: Leveraging Closed-Access Multilingual Embedding for Automatic Sentence
Alignment in Low Resource Languages
- arxiv url: http://arxiv.org/abs/2311.12179v1
- Date: Mon, 20 Nov 2023 20:48:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 02:57:02.548061
- Title: Leveraging Closed-Access Multilingual Embedding for Automatic Sentence
Alignment in Low Resource Languages
- Title(参考訳): 低資源言語における自動文アライメントのためのクローズドアクセス多言語埋め込みの活用
- Authors: Idris Abdulmumin and Auwal Abubakar Khalid and Shamsuddeen Hassan
Muhammad and Ibrahim Said Ahmad and Lukman Jibril Aliyu and Babangida Sani
and Bala Mairiga Abduljalil and Sani Ahmad Hassan
- Abstract要約: クローズドアクセスのCohere多言語埋め込みを慎重に活用する,単純だが定性的な並列文整合器を提案する。
提案されたアプローチはFLORESとMAFAND-MTで94.96ドルと54.83ドルのf1スコアを獲得し、それぞれ3.64ドルと0.64ドルのLASERを獲得した。
また,MAFAND-MTを用いて翻訳モデルのトレーニングを行った場合,LASERよりも5 BLEUスコアが向上した。
- 参考スコア(独自算出の注目度): 2.4023321876826462
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The importance of qualitative parallel data in machine translation has long
been determined but it has always been very difficult to obtain such in
sufficient quantity for the majority of world languages, mainly because of the
associated cost and also the lack of accessibility to these languages. Despite
the potential for obtaining parallel datasets from online articles using
automatic approaches, forensic investigations have found a lot of
quality-related issues such as misalignment, and wrong language codes. In this
work, we present a simple but qualitative parallel sentence aligner that
carefully leveraged the closed-access Cohere multilingual embedding, a solution
that ranked second in the just concluded #CoHereAIHack 2023 Challenge (see
https://ai6lagos.devpost.com). The proposed approach achieved $94.96$ and
$54.83$ f1 scores on FLORES and MAFAND-MT, compared to $3.64$ and $0.64$ of
LASER respectively. Our method also achieved an improvement of more than 5 BLEU
scores over LASER, when the resulting datasets were used with MAFAND-MT dataset
to train translation models. Our code and data are available for research
purposes here (https://github.com/abumafrim/Cohere-Align).
- Abstract(参考訳): 機械翻訳における質的並列データの重要性は長い間決定されてきたが、世界言語の大部分にとって、それを実現するのは常に困難であり、主な原因は、関連するコストとこれらの言語へのアクセシビリティの欠如である。
オンライン記事から、自動的なアプローチで並列データセットを得る可能性にもかかわらず、法医学的な調査は、不一致や誤った言語コードなど、品質に関する多くの問題を発見した。
本稿では, クローズドアクセス型 Cohere multilingual 埋め込みを慎重に活用した, 単純だが定性的な並列文整合器を提案する。
提案手法はフロレスとマファンドmtで94.96$と54.83$f1点を達成し、それぞれ3.64$と0.64$であった。
また,MAFAND-MTデータセットを用いて翻訳モデルのトレーニングを行った場合,LASERよりも5 BLEUスコアが向上した。
私たちのコードとデータはここで研究目的で利用可能です(https://github.com/abumafrim/Cohere-Align)。
関連論文リスト
- Question Translation Training for Better Multilingual Reasoning [113.5214494700372]
大規模言語モデルは推論タスクにおいて魅力的なパフォーマンスを示すが、英語以外の言語ではより悪いパフォーマンスを示す傾向がある。
典型的な解決策は、命令データを興味のあるすべての言語に翻訳し、結果の多言語データをトレーニングすることである。
本稿では,X- English parallel question dataを微調整することで,推論する質問を英語に翻訳するモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-15T16:39:10Z) - LAMPAT: Low-Rank Adaption for Multilingual Paraphrasing Using
Adversarial Training [20.946209173797747]
パラフレーズ(英: Paraphrase)とは、異なる単語や文構造を用いて同じ意味を伝えるテキストである。
これまでの研究は機械翻訳の知識を活用し、ゼロショット機械翻訳によるパラフレーズを同じ言語で生成してきた。
単言語データセットが人間に似た多文を生成するのに十分である最初の教師なし多言語パラフレーズモデル LAMPAT を提案する。
論文 参考訳(メタデータ) (2024-01-09T04:19:16Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122
Language Variants [82.6462524808751]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Ngambay-French Neural Machine Translation (sba-Fr) [16.55378462843573]
アフリカや世界全体では、言語障壁を克服するニューラルネットワーク翻訳(NMT)システムの開発に注目が集まっている。
このプロジェクトでは,Ngambay-to- French翻訳のコーパスである,最初のsba-Frデータセットを作成しました。
実験の結果,M2M100モデルは,オリジナルとオリジナルの両方の合成データに対して,BLEUスコアの高い他のモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-08-25T17:13:20Z) - Sinhala-English Parallel Word Dictionary Dataset [0.554780083433538]
本稿では,英語とシンハラ語に関連する多言語自然言語処理(NLP)タスクを支援する3つの並行英語・シンハラ語辞書(En-Si-dict-large,En-Si-dict-filtered,En-Si-dict-FastText)を紹介する。
論文 参考訳(メタデータ) (2023-08-04T10:21:35Z) - Chain-of-Dictionary Prompting Elicits Translation in Large Language
Models [91.55398541853785]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した
入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文 参考訳(メタデータ) (2023-05-11T05:19:47Z) - Tencent's Multilingual Machine Translation System for WMT22 Large-Scale
African Languages [47.06332023467713]
本稿では,テンセントのWMT22における多言語機械翻訳システムについて述べる。
我々は,多言語ニューラルマシン翻訳(MNMT)モデルを開発するために,データ拡張,分散ロバストな最適化,言語ファミリグループ化を採用する。
論文 参考訳(メタデータ) (2022-10-18T07:22:29Z) - Efficient Inference for Multilingual Neural Machine Translation [60.10996883354372]
我々は、その品質を劣化させることなく、多言語NMTを推論で高速にする方法をいくつか検討する。
実験により,浅いデコーダと語彙フィルタを組み合わせることで,翻訳品質を損なうことなく2倍以上の高速な推論が可能であることが確認された。
論文 参考訳(メタデータ) (2021-09-14T13:28:13Z) - Majority Voting with Bidirectional Pre-translation For Bitext Retrieval [2.580271290008534]
一般的なアプローチは、2つの言語でペアの文書からいわゆる"pseudo-parallel"文をマイニングすることであった。
本稿では,現状の手法による問題を概説し,それらの問題に対する計算経済的解決策を提案し,新しい手法による成功を実証する。
実験に使用されるコードとデータは公開されています。
論文 参考訳(メタデータ) (2021-03-10T22:24:01Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。