論文の概要: Unsupervised Pidgin Text Generation By Pivoting English Data and
Self-Training
- arxiv url: http://arxiv.org/abs/2003.08272v2
- Date: Tue, 27 Apr 2021 06:27:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 10:07:29.665722
- Title: Unsupervised Pidgin Text Generation By Pivoting English Data and
Self-Training
- Title(参考訳): 英語データと自己学習による教師なしピジンテキスト生成
- Authors: Ernie Chang, David Ifeoluwa Adelani, Xiaoyu Shen, Vera Demberg
- Abstract要約: 西アフリカ・ピジン英語は少なくとも7500万人の話者によって話されている。
本研究では,ピジン英語と英語のギャップを埋める技術を開発する。
- 参考スコア(独自算出の注目度): 16.052182198538734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: West African Pidgin English is a language that is significantly spoken in
West Africa, consisting of at least 75 million speakers. Nevertheless, proper
machine translation systems and relevant NLP datasets for pidgin English are
virtually absent. In this work, we develop techniques targeted at bridging the
gap between Pidgin English and English in the context of natural language
generation. %As a proof of concept, we explore the proposed techniques in the
area of data-to-text generation. By building upon the previously released
monolingual Pidgin English text and parallel English data-to-text corpus, we
hope to build a system that can automatically generate Pidgin English
descriptions from structured data. We first train a data-to-English text
generation system, before employing techniques in unsupervised neural machine
translation and self-training to establish the Pidgin-to-English cross-lingual
alignment. The human evaluation performed on the generated Pidgin texts shows
that, though still far from being practically usable, the pivoting +
self-training technique improves both Pidgin text fluency and relevance.
- Abstract(参考訳): 西アフリカ・ピジン語(West African Pidgin English)は、西アフリカで話される言語で、少なくとも7500万人の話者からなる。
それでも、適切な機械翻訳システムと関連するピジン英語のNLPデータセットは事実上欠落している。
本研究では、ピジン英語と英語のギャップを自然言語生成の文脈で埋めることを目的とした手法を開発する。
%を概念実証として,データ・テキスト生成分野における提案手法について検討した。
従来リリースされていた単言語Pidgin英語テキストとパラレル英語データ-テキストコーパスに基づいて、構造化データからPidgin英語記述を自動的に生成するシステムを構築したい。
まず、教師なしニューラルマシン翻訳と自己学習の技術を用いて、Pidgin-to- Englishの言語間アライメントを確立する。
生成したPidginテキストの人間による評価は、実用には程遠いものの、ピボットと自己学習の技術はPidginテキストの流速と関連性の両方を改善していることを示している。
関連論文リスト
- Enhancing Language Learning through Technology: Introducing a New English-Azerbaijani (Arabic Script) Parallel Corpus [0.9051256541674136]
本稿では,英語・アゼルバイジャン語の並列コーパスについて紹介する。
これは、低リソース言語のための言語学習と機械翻訳の技術的ギャップを埋めるように設計されている。
論文 参考訳(メタデータ) (2024-07-06T21:23:20Z) - Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。
また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文 参考訳(メタデータ) (2023-11-07T03:50:25Z) - Hindi to English: Transformer-Based Neural Machine Translation [0.0]
我々は,インド語ヒンディー語から英語への翻訳のためにトランスフォーマーモデルを訓練し,機械翻訳(NMT)システムを開発した。
トレーニングデータを増強し、語彙を作成するために、バックトランスレーションを実装した。
これにより、IIT Bombay English-Hindi Corpusのテストセットで、最先端のBLEUスコア24.53を達成することができました。
論文 参考訳(メタデータ) (2023-09-23T00:00:09Z) - Low-Resource Cross-Lingual Adaptive Training for Nigerian Pidgin [3.2039731457723604]
ナイジェリアのピジン (Naija) のテキスト分類と翻訳を, 大規模に並列した英語-ピジンコーパスを収集することによって改善することを目的としている。
本研究は,英語の事前学習型言語モデルが,最大2.38BLEUの改善を伴い,多言語言語モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-01T16:47:36Z) - Cross-lingual Transferring of Pre-trained Contextualized Language Models [73.97131976850424]
本稿では,PRLMのための新しい言語間モデル転送フレームワークTreLMを提案する。
シンボルの順序と言語間のシーケンス長の差に対処するため,中間的なTRILayer構造を提案する。
提案手法は,スクラッチから学習した言語モデルに対して,性能と効率の両面で,限られたデータで著しく優れることを示す。
論文 参考訳(メタデータ) (2021-07-27T06:51:13Z) - Improving Cross-Lingual Reading Comprehension with Self-Training [62.73937175625953]
現在の最新モデルは、いくつかのベンチマークで人間のパフォーマンスを上回っています。
前作では、ゼロショットのクロスリンガル読解のための事前訓練された多言語モデルの能力を明らかにしている。
本稿では,ラベルのないデータを利用して性能を向上する。
論文 参考訳(メタデータ) (2021-05-08T08:04:30Z) - Unsupervised Bitext Mining and Translation via Self-trained Contextual
Embeddings [51.47607125262885]
不整合テキストから機械翻訳(MT)のための擬似並列コーパスを作成するための教師なし手法について述べる。
我々は多言語BERTを用いて、最寄りの検索のためのソースとターゲット文の埋め込みを作成し、自己学習によりモデルを適応する。
BUCC 2017 bitextマイニングタスクで並列文ペアを抽出し,F1スコアの最大24.5ポイント増加(絶対)を従来の教師なし手法と比較して観察することで,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-10-15T14:04:03Z) - scb-mt-en-th-2020: A Large English-Thai Parallel Corpus [3.3072037841206354]
我々は100万以上のセグメント対を持つ英タイ機械翻訳データセットを構築した。
このデータセットに基づいて機械翻訳モデルを訓練する。
データセット、事前トレーニングされたモデル、私たちの作業を再現するソースコードは、パブリックに利用できます。
論文 参考訳(メタデータ) (2020-07-07T15:14:32Z) - Machine Translation Pre-training for Data-to-Text Generation -- A Case
Study in Czech [5.609443065827995]
非英語言語におけるデータ・テキスト生成における機械翻訳に基づく事前学習の有効性について検討する。
事前トレーニングによって、パフォーマンスを大幅に向上したエンドツーエンドモデルのトレーニングが可能になります。
論文 参考訳(メタデータ) (2020-04-05T02:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。