論文の概要: Ukrainian-to-English folktale corpus: Parallel corpus creation and augmentation for machine translation in low-resource languages
- arxiv url: http://arxiv.org/abs/2410.10063v1
- Date: Mon, 14 Oct 2024 01:00:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 03:23:50.229312
- Title: Ukrainian-to-English folktale corpus: Parallel corpus creation and augmentation for machine translation in low-resource languages
- Title(参考訳): ウクライナ語と英語の民謡コーパス:低リソース言語における機械翻訳のためのパラレルコーパスの作成と拡張
- Authors: Olena Burda-Lassen,
- Abstract要約: 我々は、利用可能な英語の翻訳に基づいて、ウクライナ語と英語の類似したウクライナの民俗の新たなコーパスを作成しました。
私たちのコーパスは単語と文の一致であり、特に機械翻訳モデルのトレーニングデータとしての使用に適した意味の最良のキュレーションを可能にします。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Folktales are linguistically very rich and culturally significant in understanding the source language. Historically, only human translation has been used for translating folklore. Therefore, the number of translated texts is very sparse, which limits access to knowledge about cultural traditions and customs. We have created a new Ukrainian-To-English parallel corpus of familiar Ukrainian folktales based on available English translations and suggested several new ones. We offer a combined domain-specific approach to building and augmenting this corpus, considering the nature of the domain and differences in the purpose of human versus machine translation. Our corpus is word and sentence-aligned, allowing for the best curation of meaning, specifically tailored for use as training data for machine translation models.
- Abstract(参考訳): 民族は言語的に非常に豊かで、言語を理解する上で文化的に重要な存在である。
歴史的に、伝承の翻訳には人訳のみが用いられてきた。
そのため、翻訳されたテキストの数は少なく、文化の伝統や慣習に関する知識へのアクセスが制限されている。
我々は、利用可能な英語の翻訳に基づいて、ウクライナ語と英語の類似したウクライナの民俗の新たなコーパスを作成し、いくつかの新しいコーパスを提案しました。
我々は、ドメインの性質と人間と機械の翻訳目的の違いを考慮して、このコーパスの構築と拡張にドメイン固有のアプローチを組み合わせる。
私たちのコーパスは単語と文の一致であり、特に機械翻訳モデルのトレーニングデータとしての使用に適した意味の最良のキュレーションを可能にします。
関連論文リスト
- Massively Multilingual Text Translation For Low-Resource Languages [7.3595126380784235]
人道的な取り組みでは、ひどい低リソース言語への翻訳は、しばしば普遍的な翻訳エンジンを必要としない。
全ての言語に対する汎用的な翻訳エンジンは存在しないが、多言語で知られている制限付きテキストを新しい低リソース言語に翻訳することは可能かもしれない。
論文 参考訳(メタデータ) (2024-01-29T21:33:08Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - The Best of Both Worlds: Combining Human and Machine Translations for
Multilingual Semantic Parsing with Active Learning [50.320178219081484]
人文翻訳と機械翻訳の両方の長所を生かした能動的学習手法を提案する。
理想的な発話選択は、翻訳されたデータの誤りとバイアスを著しく低減することができる。
論文 参考訳(メタデータ) (2023-05-22T05:57:47Z) - Comparing Formulaic Language in Human and Machine Translation: Insight
from a Parliamentary Corpus [0.0]
このテキストは、DeepL、Google Translate、Microsoft Translatorの3つのよく知られたニューラルネットワーク翻訳システムによって、フランス語から英語に翻訳された。
その結果, ニュースコーパスの観測結果が確認できたが, 違いは少ない。
彼らは、通常、議会のコーパスのようなよりリテラルな翻訳をもたらすテキストのジャンルを使うことが、人間と機械の翻訳を比較する際に好ましいことを示唆している。
論文 参考訳(メタデータ) (2022-06-22T08:59:10Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Extremely low-resource machine translation for closely related languages [0.0]
この研究は、エストニア語とフィンランド語というウラル語族の近縁言語に焦点を当てている。
多言語学習と合成コーパスにより,各言語対の翻訳品質が向上することがわかった。
転送学習と微調整は低リソースの機械翻訳に非常に効果的であり、最良の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-05-27T11:27:06Z) - Crowdsourcing Parallel Corpus for English-Oromo Neural Machine
Translation using Community Engagement Platform [0.0]
本稿では,Afaan Oromo への英語の翻訳と,その逆を Neural Machine Translation を用いて行う。
40k以上の文対からなるバイリンガルコーパスを用いて,本研究は有望な結果を示した。
論文 参考訳(メタデータ) (2021-02-15T13:22:30Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Translation Artifacts in Cross-lingual Transfer Learning [51.66536640084888]
機械翻訳は、既存の言語間モデルに顕著な影響を与える微妙なアーティファクトを導入することができることを示す。
自然言語の推論では、前提と仮説を独立に翻訳することで、それらの間の語彙的重複を減らすことができる。
また、XNLIでは、それぞれ4.3点と2.8点の翻訳とゼロショットのアプローチを改善している。
論文 参考訳(メタデータ) (2020-04-09T17:54:30Z) - Urdu-English Machine Transliteration using Neural Networks [0.0]
本稿では,教師なし言語に依存しない予測最大化(EM)に基づく翻訳手法を提案する。
システムは、パラレルコーパスからパターンと語彙外単語を学習し、明示的に音訳コーパスで学習する必要はない。
論文 参考訳(メタデータ) (2020-01-12T17:30:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。