論文の概要: KazParC: Kazakh Parallel Corpus for Machine Translation
- arxiv url: http://arxiv.org/abs/2403.19399v2
- Date: Tue, 2 Apr 2024 12:08:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 13:20:15.577756
- Title: KazParC: Kazakh Parallel Corpus for Machine Translation
- Title(参考訳): KazParC: Kazakh Parallel Corpus for Machine Translation
- Authors: Rustem Yeshpanov, Alina Polonskaya, Huseyin Atakan Varol,
- Abstract要約: KazParCは、カザフ語、英語、ロシア語、トルコ語にまたがる機械翻訳用に設計された並列コーパスである。
我々の研究は、Tilmashと呼ばれるニューラルマシン翻訳モデルの開発にも及んでいる。
- 参考スコア(独自算出の注目度): 3.1119394814248253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce KazParC, a parallel corpus designed for machine translation across Kazakh, English, Russian, and Turkish. The first and largest publicly available corpus of its kind, KazParC contains a collection of 371,902 parallel sentences covering different domains and developed with the assistance of human translators. Our research efforts also extend to the development of a neural machine translation model nicknamed Tilmash. Remarkably, the performance of Tilmash is on par with, and in certain instances, surpasses that of industry giants, such as Google Translate and Yandex Translate, as measured by standard evaluation metrics, such as BLEU and chrF. Both KazParC and Tilmash are openly available for download under the Creative Commons Attribution 4.0 International License (CC BY 4.0) through our GitHub repository.
- Abstract(参考訳): KazParCは、カザフ語、英語、ロシア語、トルコ語にまたがる機械翻訳用に設計された並列コーパスである。
KazParCは、さまざまなドメインをカバーする371,902の並列文のコレクションを含み、人間の翻訳者の助けを借りて開発された。
我々の研究は、Tilmashと呼ばれるニューラルマシン翻訳モデルの開発にも及んでいる。
注目すべきことに、Tilmashのパフォーマンスは、BLEUやchrFといった標準的な評価指標によって測定されるように、Google TranslateやYandex Translateといった業界巨人のパフォーマンスと同等であり、場合によっては同等である。
KazParCとTilmashはどちらも、GitHubリポジトリを通じてCreative Commons Attribution 4.0 International License (CC BY 4.0)の下で、無料でダウンロードできる。
関連論文リスト
- Creating Domain-Specific Translation Memories for Machine Translation Fine-tuning: The TRENCARD Bilingual Cardiology Corpus [0.0]
本稿では,翻訳者が主に使用する翻訳ツールを活用した半自動TM作成手法を紹介する。
TRENCARD Corpusと呼ばれる結果のコーパスには、約80,000のソースワードと5万の文がある。
論文 参考訳(メタデータ) (2024-09-04T12:48:30Z) - Decoupled Vocabulary Learning Enables Zero-Shot Translation from Unseen Languages [55.157295899188476]
ニューラルマシン翻訳システムは、異なる言語の文を共通の表現空間にマッピングすることを学ぶ。
本研究では、この仮説を未知の言語からのゼロショット翻訳により検証する。
この設定により、全く見えない言語からのゼロショット翻訳が可能になることを実証する。
論文 参考訳(メタデータ) (2024-08-05T07:58:58Z) - A Japanese-Chinese Parallel Corpus Using Crowdsourcing for Web Mining [20.18032411452028]
バイリンガルWebサイトから4.6万文対の日本語と中国語のパラレルコーパスを作成した。
日本語と中国語のバイリンガル辞書である160K語対を文書と文のアライメントに用いた。
我々は,これらの4.6M文対で訓練されたモデルの翻訳精度と,グローバルWebマイニングの並列コーパスであるCCMatrix (12.4M)の日本語と中国語の文対で訓練されたモデルの翻訳精度を比較した。
論文 参考訳(メタデータ) (2024-05-15T00:54:40Z) - Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。
また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文 参考訳(メタデータ) (2023-11-07T03:50:25Z) - Decomposed Prompting for Machine Translation Between Related Languages
using Large Language Models [55.35106713257871]
DecoMTは、単語チャンク翻訳のシーケンスに翻訳プロセスを分解する、数発のプロンプトの新しいアプローチである。
DecoMTはBLOOMモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-22T14:52:47Z) - A Bilingual Parallel Corpus with Discourse Annotations [82.07304301996562]
本稿では,Jiang et al. (2022)で最初に導入された大きな並列コーパスであるBWBと,注釈付きテストセットについて述べる。
BWBコーパスは、専門家によって英語に翻訳された中国の小説で構成されており、注釈付きテストセットは、様々な談話現象をモデル化する機械翻訳システムの能力を調査するために設計されている。
論文 参考訳(メタデータ) (2022-10-26T12:33:53Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Leveraging Multilingual News Websites for Building a Kurdish Parallel
Corpus [0.6445605125467573]
クルド語、ソラニ語、クルマンジ語の2つの主要方言に12,327の翻訳ペアを含むコーパスを提示する。
また、英語のクルマンジ語と英語のソルニ語で1,797と650の翻訳ペアを提供している。
論文 参考訳(メタデータ) (2020-10-04T11:52:50Z) - Lite Training Strategies for Portuguese-English and English-Portuguese
Translation [67.4894325619275]
ポルトガル語・英語・ポルトガル語の翻訳タスクにおいて,T5などの事前学習モデルの使用について検討する。
本稿では,ポルトガル語の文字,例えばダイアレーシス,急性アクセント,墓のアクセントを表すために,英語のトークン化器の適応を提案する。
以上の結果から,本モデルは最新モデルと競合する性能を示しながら,控えめなハードウェアでトレーニングを行った。
論文 参考訳(メタデータ) (2020-08-20T04:31:03Z) - Coursera Corpus Mining and Multistage Fine-Tuning for Improving Lectures
Translation [37.04364877980479]
本稿では,Coursera の公開講義から並列コーパスをマイニングする方法を紹介する。
提案手法は,連続空間の文表現よりも機械翻訳とコサイン類似性に頼って,文のアライメントを決定する。
日本語-英語の講義翻訳では,約4万行の並列データを抽出し,開発・テストセットを作成した。
論文 参考訳(メタデータ) (2019-12-26T01:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。