論文の概要: MultiScript30k: Leveraging Multilingual Embeddings to Extend Cross Script Parallel Data
- arxiv url: http://arxiv.org/abs/2512.11074v1
- Date: Thu, 11 Dec 2025 19:43:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.544569
- Title: MultiScript30k: Leveraging Multilingual Embeddings to Extend Cross Script Parallel Data
- Title(参考訳): MultiScript30k: クロススクリプト並列データの拡張にマルチ言語埋め込みを活用する
- Authors: Christopher Driggers-Ellis, Detravious Brinkley, Ray Chen, Aashish Dhawan, Daisy Zhe Wang, Christan Grant,
- Abstract要約: Multi30kはマルチモーダル機械翻訳(MMT)の文献でしばしば引用される。
チェコ語、英語、フランス語、ドイツ語の4言語に限られている。
我々はMultiScript30kを提案する。MultiScript30kは、様々なスクリプトでグローバル言語向けの新しいMultiScript30kデータセット拡張である。
- 参考スコア(独自算出の注目度): 5.085705001058416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi30k is frequently cited in the multimodal machine translation (MMT) literature, offering parallel text data for training and fine-tuning deep learning models. However, it is limited to four languages: Czech, English, French, and German. This restriction has led many researchers to focus their investigations only on these languages. As a result, MMT research on diverse languages has been stalled because the official Multi30k dataset only represents European languages in Latin scripts. Previous efforts to extend Multi30k exist, but the list of supported languages, represented language families, and scripts is still very short. To address these issues, we propose MultiScript30k, a new Multi30k dataset extension for global languages in various scripts, created by translating the English version of Multi30k (Multi30k-En) using NLLB200-3.3B. The dataset consists of over \(30000\) sentences and provides translations of all sentences in Multi30k-En into Ar, Es, Uk, Zh\_Hans and Zh\_Hant. Similarity analysis shows that Multi30k extension consistently achieves greater than \(0.8\) cosine similarity and symmetric KL divergence less than \(0.000251\) for all languages supported except Zh\_Hant which is comparable to the previous Multi30k extensions ArEnMulti30k and Multi30k-Uk. COMETKiwi scores reveal mixed assessments of MultiScript30k as a translation of Multi30k-En in comparison to the related work. ArEnMulti30k scores nearly equal MultiScript30k-Ar, but Multi30k-Uk scores $6.4\%$ greater than MultiScript30k-Uk per split.
- Abstract(参考訳): Multi30kはマルチモーダル機械翻訳(MMT)の文献によく引用されており、訓練用の並列テキストデータと微調整深層学習モデルを提供している。
しかし、チェコ語、英語、フランス語、ドイツ語の4言語に限られている。
この制限により、多くの研究者はこれらの言語にのみ焦点を合わせるようになった。
結果として、MMTによる多言語の研究は、公式のMulti30kデータセットがラテン文字のヨーロッパ言語のみを表現しているため、停滞している。
これまでのMulti30kの拡張作業は存在するが、サポート言語のリスト、表現された言語ファミリ、スクリプトは依然として非常に短い。
これらの問題に対処するため、NLLB200-3.3Bを用いてMulti30k(Multi30k-En)の英語版を翻訳することで、様々なスクリプトでグローバル言語用の新しいMulti30kデータセット拡張であるMultiScript30kを提案する。
データセットは \(30000\) 以上の文で構成され、Multi30k-En のすべての文を Ar, Es, Uk, Zh\_Hans, Zh\_Hant に変換する。
類似性解析により、Multi30k拡張とMulti30k拡張に匹敵するZh\_Hant以外の全ての言語に対して、Multi30k拡張は、常に \(0.8\)コサイン類似性と対称KLばらつきを \(0.000251\) 未満で達成していることが示された。
COMETKiwiスコアは、MultiScript30kを、関連する作業と比較してMulti30k-Enの翻訳として混合評価している。
ArEnMulti30kはMultiScript30k-Arとほぼ等しいが、MultiMulti30k-UkはMultiScript30k-Ukよりも6.4\%高い。
関連論文リスト
- From Unaligned to Aligned: Scaling Multilingual LLMs with Multi-Way Parallel Corpora [80.0547333327488]
TED Talks に基づく大規模かつ高品質なマルチウェイ並列コーパス TED2025 を導入する。
このデータセットは113の言語にまたがっており、最大50の言語が並列に並び、広範囲にわたるマルチリンガルカバレッジを保証する。
実験により、マルチウェイ並列データでトレーニングされたモデルは、不整合多言語データでトレーニングされたモデルよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-05-20T07:43:45Z) - MultiLoKo: a multilingual local knowledge benchmark for LLMs spanning 31 languages [17.175361236651906]
我々は、31言語をカバーするLLMの多言語性を評価するための新しいベンチマークであるMultiLoKoを提案する。
我々はMultiLoKoのスコアを11のベースで計算し、マルチリンガルなチャットモデルを市場に出し、平均的なパフォーマンスについて研究する。
局所的データと英訳データを使用することで,最高の演奏モデルに対して20点以上の差が生じることが判明した。
論文 参考訳(メタデータ) (2025-04-14T16:05:59Z) - m3P: Towards Multimodal Multilingual Translation with Multimodal Prompt [39.2728779674405]
マルチモーダル多言語ニューラルマシン翻訳(m3P)を導くためのマルチモーダルプロンプトを利用するフレームワークを提案する。
本手法は, 中心言語としてのイメージを考慮し, 異なる言語の表現距離を最小化することを目的とする。
実験の結果,m3Pは従来のテキストのみのベースラインや多言語マルチモーダルメソッドよりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-26T10:04:24Z) - ZC3: Zero-Shot Cross-Language Code Clone Detection [79.53514630357876]
ゼロショットクロスランゲージコードクローン検出のためのZC3という新しい手法を提案する。
ZC3は、異なるプログラミング言語間で同型表現空間を形成するために、対照的なスニペット予測を設計する。
これに基づいて、ZC3はドメイン認識学習とサイクル一貫性学習を利用して、異なる言語間で整合した表現を生成する。
論文 参考訳(メタデータ) (2023-08-26T03:48:10Z) - LVP-M3: Language-aware Visual Prompt for Multilingual Multimodal Machine
Translation [94.33019040320507]
マルチモーダル機械翻訳(MMT)は、視覚的特徴を持つテキストのみの翻訳を強化することに焦点を当てている。
最近の進歩は、各言語ペアごとに別々のモデルをトレーニングすることに苦慮している。
7つの言語をカバーする2つのMultilingual MMTベンチマークデータセットを確立することで,Multilingual MMTタスクを提案する。
論文 参考訳(メタデータ) (2022-10-19T12:21:39Z) - Multilingual Multimodal Pre-training for Zero-Shot Cross-Lingual
Transfer of Vision-Language Models [144.85290716246533]
視覚言語モデルのゼロショット言語間移動について検討する。
本稿では,文脈化多言語マルチモーダル埋め込みを学習するトランスフォーマティブモデルを提案する。
論文 参考訳(メタデータ) (2021-03-16T04:37:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。