論文の概要: Towards Machine Translation for the Kurdish Language
- arxiv url: http://arxiv.org/abs/2010.06041v1
- Date: Mon, 12 Oct 2020 21:28:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 07:08:47.635970
- Title: Towards Machine Translation for the Kurdish Language
- Title(参考訳): クルド語の機械翻訳に向けて
- Authors: Sina Ahmadi, Mariam Masoud
- Abstract要約: 機械翻訳は、ある言語から別の言語にコンピュータを使ってテキストを翻訳するタスクである。
インド・ヨーロッパ語であるクルド語はこの領域でほとんど注目を集めていない。
本稿では,Sorani Kurdish-British翻訳のためのニューラルマシン翻訳モデルのトレーニングに適した少ない並列データについて述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine translation is the task of translating texts from one language to
another using computers. It has been one of the major tasks in natural language
processing and computational linguistics and has been motivating to facilitate
human communication. Kurdish, an Indo-European language, has received little
attention in this realm due to the language being less-resourced. Therefore, in
this paper, we are addressing the main issues in creating a machine translation
system for the Kurdish language, with a focus on the Sorani dialect. We
describe the available scarce parallel data suitable for training a neural
machine translation model for Sorani Kurdish-English translation. We also
discuss some of the major challenges in Kurdish language translation and
demonstrate how fundamental text processing tasks, such as tokenization, can
improve translation performance.
- Abstract(参考訳): 機械翻訳はコンピュータを使ってある言語から別の言語へテキストを翻訳する作業である。
自然言語処理と計算言語学の主要なタスクの1つであり、人間のコミュニケーションを促進する動機となっている。
インド・ヨーロッパ語であるクルド語はこの領域でほとんど注目を集めていない。
そこで,本稿では,ソラニ方言に着目したクルド語機械翻訳システムの構築における主な課題について論じる。
本稿では,Sorani Kurdish-English翻訳のためのニューラルマシン翻訳モデルのトレーニングに適した少ない並列データについて述べる。
また,クルド語翻訳における主な課題を議論し,トークン化などのテキスト処理タスクが翻訳性能をいかに向上するかを実証する。
関連論文リスト
- Enhancing Language Learning through Technology: Introducing a New English-Azerbaijani (Arabic Script) Parallel Corpus [0.9051256541674136]
本稿では,英語・アゼルバイジャン語の並列コーパスについて紹介する。
これは、低リソース言語のための言語学習と機械翻訳の技術的ギャップを埋めるように設計されている。
論文 参考訳(メタデータ) (2024-07-06T21:23:20Z) - Enhancing Cross-lingual Transfer via Phonemic Transcription Integration [57.109031654219294]
PhoneXLは、音素転写を言語間移動のための追加のモダリティとして組み込んだフレームワークである。
本研究は, 音素転写が, 言語間移動を促進するために, 正書法以外の重要な情報を提供することを示すものである。
論文 参考訳(メタデータ) (2023-07-10T06:17:33Z) - On the Copying Problem of Unsupervised NMT: A Training Schedule with a
Language Discriminator Loss [120.19360680963152]
unsupervised neural machine translation (UNMT)は多くの言語で成功している。
コピー問題、すなわち、入力文の一部を翻訳として直接コピーする問題は、遠い言語対に共通している。
本稿では,言語識別器の損失を取り入れた,シンプルだが効果的な訓練スケジュールを提案する。
論文 参考訳(メタデータ) (2023-05-26T18:14:23Z) - The Best of Both Worlds: Combining Human and Machine Translations for
Multilingual Semantic Parsing with Active Learning [50.320178219081484]
人文翻訳と機械翻訳の両方の長所を生かした能動的学習手法を提案する。
理想的な発話選択は、翻訳されたデータの誤りとバイアスを著しく低減することができる。
論文 参考訳(メタデータ) (2023-05-22T05:57:47Z) - Approaches to Corpus Creation for Low-Resource Language Technology: the
Case of Southern Kurdish and Laki [29.27024733066261]
このような表現不足言語,特に書込みや標準化における課題について述べる。
また、クルド語やザザ・ゴラーニ語の他の変種に照らして、言語識別の課題についても検討する。
論文 参考訳(メタデータ) (2023-04-03T19:36:32Z) - The Effect of Normalization for Bi-directional Amharic-English Neural
Machine Translation [53.907805815477126]
本稿では,比較的大規模なアムハラ語-英語並列文データセットを提案する。
我々は、既存のFacebook M2M100事前学習モデルを微調整することで、双方向のアムハラ語翻訳モデルを構築する。
その結果, 両方向のアンハラ語・英語機械翻訳の性能は, アンハラ語ホモホン文字の正規化により向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-27T07:18:53Z) - Informative Language Representation Learning for Massively Multilingual
Neural Machine Translation [47.19129812325682]
多言語ニューラルマシン翻訳モデルでは、通常、人工言語トークンを使用して、所望のターゲット言語への翻訳をガイドする。
近年の研究では、先行する言語トークンは、多言語ニューラルマシン翻訳モデルから正しい翻訳方向へのナビゲートに失敗することがある。
本稿では,言語埋め込み型エンボディメントと言語認識型マルチヘッドアテンションという2つの手法を提案する。
論文 参考訳(メタデータ) (2022-09-04T04:27:17Z) - Central Kurdish machine translation: First large scale parallel corpus
and experiments [2.099922236065961]
229,222対の手作業による翻訳を含む、中央クルド語英語のAwtaの最初の大規模並列コーパスを提示する。
ベストパフォーマンスシステムは,それぞれ,Ku$rightarrow$ENとEn$rightarrow$KuのBLEUスコアで22.72と16.81を達成する。
論文 参考訳(メタデータ) (2021-06-17T08:41:53Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Leveraging Multilingual News Websites for Building a Kurdish Parallel
Corpus [0.6445605125467573]
クルド語、ソラニ語、クルマンジ語の2つの主要方言に12,327の翻訳ペアを含むコーパスを提示する。
また、英語のクルマンジ語と英語のソルニ語で1,797と650の翻訳ペアを提供している。
論文 参考訳(メタデータ) (2020-10-04T11:52:50Z) - Towards Finite-State Morphology of Kurdish [0.76146285961466]
クルド語(ソルニ方言)の形態は、計算学的観点から記述される。
単語の生成と解析のために有限状態変換器に変換される形態素規則を抽出する。
論文 参考訳(メタデータ) (2020-05-21T13:55:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。