論文の概要: ArzEn-MultiGenre: An aligned parallel dataset of Egyptian Arabic song lyrics, novels, and subtitles, with English translations
- arxiv url: http://arxiv.org/abs/2508.01411v1
- Date: Sat, 02 Aug 2025 15:28:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.86755
- Title: ArzEn-MultiGenre: An aligned parallel dataset of Egyptian Arabic song lyrics, novels, and subtitles, with English translations
- Title(参考訳): ArzEn-MultiGenre: エジプトのアラビア語の歌詞、小説、字幕の並列データセット。
- Authors: Rania Al-Sabbagh,
- Abstract要約: ArzEn-MultiGenreは、エジプトのアラビア語の歌詞、小説、テレビ番組のサブタイトルのパラレルデータセットで、手動で翻訳され、英語のサブタイトルと一致している。
データセットには25,557のセグメントペアが含まれており、新しい機械翻訳モデルのベンチマーク、数ショット設定で微調整された大きな言語モデル、Google Translateなどの商用機械翻訳アプリケーションへの適応に使用できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: ArzEn-MultiGenre is a parallel dataset of Egyptian Arabic song lyrics, novels, and TV show subtitles that are manually translated and aligned with their English counterparts. The dataset contains 25,557 segment pairs that can be used to benchmark new machine translation models, fine-tune large language models in few-shot settings, and adapt commercial machine translation applications such as Google Translate. Additionally, the dataset is a valuable resource for research in various disciplines, including translation studies, cross-linguistic analysis, and lexical semantics. The dataset can also serve pedagogical purposes by training translation students and aid professional translators as a translation memory. The contributions are twofold: first, the dataset features textual genres not found in existing parallel Egyptian Arabic and English datasets, and second, it is a gold-standard dataset that has been translated and aligned by human experts.
- Abstract(参考訳): ArzEn-MultiGenreは、エジプトのアラビア語の歌詞、小説、テレビ番組のサブタイトルのパラレルデータセットで、手動で翻訳され、英語のサブタイトルと一致している。
データセットには25,557のセグメントペアが含まれており、新しい機械翻訳モデルのベンチマーク、数ショット設定で微調整された大きな言語モデル、Google Translateなどの商用機械翻訳アプリケーションへの適応に使用できる。
さらに、データセットは、翻訳研究、言語横断分析、語彙意味論など、様々な分野の研究のための貴重なリソースである。
データセットは、翻訳学生を訓練し、プロの翻訳者を翻訳記憶として支援することで、教育目的にも役立てることができる。
コントリビューションは2つある: 第一に、このデータセットは既存のエジプトのアラビア語と英語のデータセットにはないテキストのジャンルを特徴とし、第二に、人間の専門家によって翻訳され、調整されたゴールドスタンダードのデータセットである。
関連論文リスト
- ATHAR: A High-Quality and Diverse Dataset for Classical Arabic to English Translation [1.8109081066789847]
古典アラビア語は重要な時代であり、アラブ文化、哲学、科学文学の黄金時代を包含している。
我々は古典アラビア語の翻訳データセットが不足していることを特定し、スコープやトピックに制限されることが多い。
ATHARデータセットは66,000の高品質のアラビア語から英語への翻訳サンプルからなる。
論文 参考訳(メタデータ) (2024-07-29T09:45:34Z) - Open the Data! Chuvash Datasets [50.59120569845975]
Chuvash言語用の包括的データセットを4つ紹介する。
これらのデータセットには、モノリンガルデータセット、ロシア語による並列データセット、英語による並列データセット、オーディオデータセットが含まれる。
論文 参考訳(メタデータ) (2024-05-31T07:51:19Z) - Contextual Label Projection for Cross-Lingual Structured Prediction [103.55999471155104]
CLaPはテキストを対象言語に翻訳し、翻訳されたテキストをコンテキストとしてラベルにコンテキスト変換を行う。
39言語間のゼロショット言語間転送において,CLaPと他のラベル投影手法のベンチマークを行った。
論文 参考訳(メタデータ) (2023-09-16T10:27:28Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - An Evaluation of Persian-English Machine Translation Datasets with
Transformers [1.0742675209112622]
この研究はペルシア語と英語の翻訳に使われた最もポピュラーで価値のある平行コーパスを収集し分析した。
我々は、各データセット上で2つの最新アテンションベースセq2seqモデルを微調整し、評価した。
論文 参考訳(メタデータ) (2023-02-01T08:55:08Z) - The Effect of Normalization for Bi-directional Amharic-English Neural
Machine Translation [53.907805815477126]
本稿では,比較的大規模なアムハラ語-英語並列文データセットを提案する。
我々は、既存のFacebook M2M100事前学習モデルを微調整することで、双方向のアムハラ語翻訳モデルを構築する。
その結果, 両方向のアンハラ語・英語機械翻訳の性能は, アンハラ語ホモホン文字の正規化により向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-27T07:18:53Z) - FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。
このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文 参考訳(メタデータ) (2022-10-01T05:02:04Z) - VISA: An Ambiguous Subtitles Dataset for Visual Scene-Aware Machine
Translation [24.99480715551902]
マルチモーダル機械翻訳(MMT)データセットは、画像とビデオキャプションまたは一般的な字幕で構成され、言語的曖昧さをほとんど含まない。
日本語と英語のパラレルな文対とそれに対応するビデオクリップからなる新しいデータセットであるVISAを紹介する。
論文 参考訳(メタデータ) (2022-01-20T08:38:31Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - scb-mt-en-th-2020: A Large English-Thai Parallel Corpus [3.3072037841206354]
我々は100万以上のセグメント対を持つ英タイ機械翻訳データセットを構築した。
このデータセットに基づいて機械翻訳モデルを訓練する。
データセット、事前トレーニングされたモデル、私たちの作業を再現するソースコードは、パブリックに利用できます。
論文 参考訳(メタデータ) (2020-07-07T15:14:32Z) - A High-Quality Multilingual Dataset for Structured Documentation
Translation [101.41835967142521]
本稿では,文書領域を対象とした高品質な多言語データセットを提案する。
エンタープライズソフトウェアプラットフォームのオンラインドキュメントからXML構造化の並列テキストセグメントを収集します。
論文 参考訳(メタデータ) (2020-06-24T02:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。