Fugu-MT 論文翻訳(概要): MultiScript30k: Leveraging Multilingual Embeddings to Extend Cross Script Parallel Data

論文の概要: MultiScript30k: Leveraging Multilingual Embeddings to Extend Cross Script Parallel Data

arxiv url: http://arxiv.org/abs/2512.11074v1
Date: Thu, 11 Dec 2025 19:43:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-15 15:48:11.544569
Title: MultiScript30k: Leveraging Multilingual Embeddings to Extend Cross Script Parallel Data
Title（参考訳）: MultiScript30k: クロススクリプト並列データの拡張にマルチ言語埋め込みを活用する
Authors: Christopher Driggers-Ellis, Detravious Brinkley, Ray Chen, Aashish Dhawan, Daisy Zhe Wang, Christan Grant,
Abstract要約: Multi30kはマルチモーダル機械翻訳(MMT)の文献でしばしば引用される。チェコ語、英語、フランス語、ドイツ語の4言語に限られている。我々はMultiScript30kを提案する。MultiScript30kは、様々なスクリプトでグローバル言語向けの新しいMultiScript30kデータセット拡張である。
参考スコア（独自算出の注目度）: 5.085705001058416
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi30k is frequently cited in the multimodal machine translation (MMT) literature, offering parallel text data for training and fine-tuning deep learning models. However, it is limited to four languages: Czech, English, French, and German. This restriction has led many researchers to focus their investigations only on these languages. As a result, MMT research on diverse languages has been stalled because the official Multi30k dataset only represents European languages in Latin scripts. Previous efforts to extend Multi30k exist, but the list of supported languages, represented language families, and scripts is still very short. To address these issues, we propose MultiScript30k, a new Multi30k dataset extension for global languages in various scripts, created by translating the English version of Multi30k (Multi30k-En) using NLLB200-3.3B. The dataset consists of over $30000$ sentences and provides translations of all sentences in Multi30k-En into Ar, Es, Uk, Zh\_Hans and Zh\_Hant. Similarity analysis shows that Multi30k extension consistently achieves greater than $0.8$ cosine similarity and symmetric KL divergence less than $0.000251$ for all languages supported except Zh\_Hant which is comparable to the previous Multi30k extensions ArEnMulti30k and Multi30k-Uk. COMETKiwi scores reveal mixed assessments of MultiScript30k as a translation of Multi30k-En in comparison to the related work. ArEnMulti30k scores nearly equal MultiScript30k-Ar, but Multi30k-Uk scores $6.4\%$ greater than MultiScript30k-Uk per split.
Abstract（参考訳）: Multi30kはマルチモーダル機械翻訳(MMT)の文献によく引用されており、訓練用の並列テキストデータと微調整深層学習モデルを提供している。しかし、チェコ語、英語、フランス語、ドイツ語の4言語に限られている。この制限により、多くの研究者はこれらの言語にのみ焦点を合わせるようになった。結果として、MMTによる多言語の研究は、公式のMulti30kデータセットがラテン文字のヨーロッパ言語のみを表現しているため、停滞している。これまでのMulti30kの拡張作業は存在するが、サポート言語のリスト、表現された言語ファミリ、スクリプトは依然として非常に短い。これらの問題に対処するため、NLLB200-3.3Bを用いてMulti30k(Multi30k-En)の英語版を翻訳することで、様々なスクリプトでグローバル言語用の新しいMulti30kデータセット拡張であるMultiScript30kを提案する。データセットは $30000$ 以上の文で構成され、Multi30k-En のすべての文を Ar, Es, Uk, Zh\_Hans, Zh\_Hant に変換する。類似性解析により、Multi30k拡張とMulti30k拡張に匹敵するZh\_Hant以外の全ての言語に対して、Multi30k拡張は、常に $0.8$コサイン類似性と対称KLばらつきを $0.000251$ 未満で達成していることが示された。 COMETKiwiスコアは、MultiScript30kを、関連する作業と比較してMulti30k-Enの翻訳として混合評価している。 ArEnMulti30kはMultiScript30k-Arとほぼ等しいが、MultiMulti30k-UkはMultiScript30k-Ukよりも6.4\%高い。

論文の概要: MultiScript30k: Leveraging Multilingual Embeddings to Extend Cross Script Parallel Data

関連論文リスト