論文の概要: Leveraging Closed-Access Multilingual Embedding for Automatic Sentence
Alignment in Low Resource Languages
- arxiv url: http://arxiv.org/abs/2311.12179v1
- Date: Mon, 20 Nov 2023 20:48:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 02:57:02.548061
- Title: Leveraging Closed-Access Multilingual Embedding for Automatic Sentence
Alignment in Low Resource Languages
- Title(参考訳): 低資源言語における自動文アライメントのためのクローズドアクセス多言語埋め込みの活用
- Authors: Idris Abdulmumin and Auwal Abubakar Khalid and Shamsuddeen Hassan
Muhammad and Ibrahim Said Ahmad and Lukman Jibril Aliyu and Babangida Sani
and Bala Mairiga Abduljalil and Sani Ahmad Hassan
- Abstract要約: クローズドアクセスのCohere多言語埋め込みを慎重に活用する,単純だが定性的な並列文整合器を提案する。
提案されたアプローチはFLORESとMAFAND-MTで94.96ドルと54.83ドルのf1スコアを獲得し、それぞれ3.64ドルと0.64ドルのLASERを獲得した。
また,MAFAND-MTを用いて翻訳モデルのトレーニングを行った場合,LASERよりも5 BLEUスコアが向上した。
- 参考スコア(独自算出の注目度): 2.4023321876826462
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The importance of qualitative parallel data in machine translation has long
been determined but it has always been very difficult to obtain such in
sufficient quantity for the majority of world languages, mainly because of the
associated cost and also the lack of accessibility to these languages. Despite
the potential for obtaining parallel datasets from online articles using
automatic approaches, forensic investigations have found a lot of
quality-related issues such as misalignment, and wrong language codes. In this
work, we present a simple but qualitative parallel sentence aligner that
carefully leveraged the closed-access Cohere multilingual embedding, a solution
that ranked second in the just concluded #CoHereAIHack 2023 Challenge (see
https://ai6lagos.devpost.com). The proposed approach achieved $94.96$ and
$54.83$ f1 scores on FLORES and MAFAND-MT, compared to $3.64$ and $0.64$ of
LASER respectively. Our method also achieved an improvement of more than 5 BLEU
scores over LASER, when the resulting datasets were used with MAFAND-MT dataset
to train translation models. Our code and data are available for research
purposes here (https://github.com/abumafrim/Cohere-Align).
- Abstract(参考訳): 機械翻訳における質的並列データの重要性は長い間決定されてきたが、世界言語の大部分にとって、それを実現するのは常に困難であり、主な原因は、関連するコストとこれらの言語へのアクセシビリティの欠如である。
オンライン記事から、自動的なアプローチで並列データセットを得る可能性にもかかわらず、法医学的な調査は、不一致や誤った言語コードなど、品質に関する多くの問題を発見した。
本稿では, クローズドアクセス型 Cohere multilingual 埋め込みを慎重に活用した, 単純だが定性的な並列文整合器を提案する。
提案手法はフロレスとマファンドmtで94.96$と54.83$f1点を達成し、それぞれ3.64$と0.64$であった。
また,MAFAND-MTデータセットを用いて翻訳モデルのトレーニングを行った場合,LASERよりも5 BLEUスコアが向上した。
私たちのコードとデータはここで研究目的で利用可能です(https://github.com/abumafrim/Cohere-Align)。
関連論文リスト
- Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - SynDARin: Synthesising Datasets for Automated Reasoning in Low-Resource Languages [44.85501254683431]
質問回答データセットは、コレクションと手動アノテーションのコストと難しさのため、英語以外の言語では不十分である。
低リソース言語向けQAデータセットの生成と検証を行う方法である$textbfS$yn$textbfDAR$inを提案する。
論文 参考訳(メタデータ) (2024-06-20T15:49:28Z) - How do Large Language Models Handle Multilingualism? [81.15060972112563]
本研究では,大規模言語モデル(LLM)が多言語モデルをどのように扱うかを検討する。
LLMはまずクエリを理解し、タスク解決のために多言語入力を英語に変換する。
中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識を取り入れている。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - Question Translation Training for Better Multilingual Reasoning [108.10066378240879]
大規模言語モデルは推論タスクにおいて魅力的なパフォーマンスを示すが、英語以外の言語ではより悪いパフォーマンスを示す傾向がある。
典型的な解決策は、命令データを興味のあるすべての言語に翻訳し、結果の多言語データをトレーニングすることである。
本稿では,X- English parallel question dataを微調整することで,推論する質問を英語に翻訳するモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-15T16:39:10Z) - LAMPAT: Low-Rank Adaption for Multilingual Paraphrasing Using Adversarial Training [19.173992333194683]
パラフレーズ(英: Paraphrase)とは、異なる単語や文構造を用いて同じ意味を伝えるテキストである。
これまでの研究は機械翻訳の知識を活用し、ゼロショット機械翻訳によるパラフレーズを同じ言語で生成してきた。
単言語データセットが人間に似た多文を生成するのに十分である最初の教師なし多言語パラフレーズモデル LAMPAT を提案する。
論文 参考訳(メタデータ) (2024-01-09T04:19:16Z) - GlotLID: Language Identification for Low-Resource Languages [51.38634652914054]
GlotLID-M は広い範囲、信頼性、効率性のデシラタを満たす LID モデルである。
1665の言語を識別し、以前の作業に比べてカバー範囲が大幅に増加した。
論文 参考訳(メタデータ) (2023-10-24T23:45:57Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Sinhala-English Parallel Word Dictionary Dataset [0.554780083433538]
本稿では,英語とシンハラ語に関連する多言語自然言語処理(NLP)タスクを支援する3つの並行英語・シンハラ語辞書(En-Si-dict-large,En-Si-dict-filtered,En-Si-dict-FastText)を紹介する。
論文 参考訳(メタデータ) (2023-08-04T10:21:35Z) - Tencent's Multilingual Machine Translation System for WMT22 Large-Scale
African Languages [47.06332023467713]
本稿では,テンセントのWMT22における多言語機械翻訳システムについて述べる。
我々は,多言語ニューラルマシン翻訳(MNMT)モデルを開発するために,データ拡張,分散ロバストな最適化,言語ファミリグループ化を採用する。
論文 参考訳(メタデータ) (2022-10-18T07:22:29Z) - Majority Voting with Bidirectional Pre-translation For Bitext Retrieval [2.580271290008534]
一般的なアプローチは、2つの言語でペアの文書からいわゆる"pseudo-parallel"文をマイニングすることであった。
本稿では,現状の手法による問題を概説し,それらの問題に対する計算経済的解決策を提案し,新しい手法による成功を実証する。
実験に使用されるコードとデータは公開されています。
論文 参考訳(メタデータ) (2021-03-10T22:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。