論文の概要: Limitations of Religious Data and the Importance of the Target Domain: Towards Machine Translation for Guinea-Bissau Creole
- arxiv url: http://arxiv.org/abs/2504.02674v1
- Date: Thu, 03 Apr 2025 15:14:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 16:18:52.283954
- Title: Limitations of Religious Data and the Importance of the Target Domain: Towards Machine Translation for Guinea-Bissau Creole
- Title(参考訳): 宗教データの制限とターゲットドメインの重要性:ギニアビサウクレオールの機械翻訳を目指して
- Authors: Jacqueline Rowe, Edward Gow-Smith, Mark Hepple,
- Abstract要約: ギニアビサウクレオール(キリオール)の機械翻訳のための新しいデータセットについて紹介する。
このデータセットは、主に宗教的なデータ(聖書とジェホバの証人からのテキスト)と、少数の一般ドメインデータ(辞書からの)で構成されている。
学習時に対象領域から300の文を追加することで、翻訳性能が大幅に向上することがわかった。
- 参考スコア(独自算出の注目度): 0.3481985817302898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a new dataset for machine translation of Guinea-Bissau Creole (Kiriol), comprising around 40 thousand parallel sentences to English and Portuguese. This dataset is made up of predominantly religious data (from the Bible and texts from the Jehovah's Witnesses), but also a small amount of general domain data (from a dictionary). This mirrors the typical resource availability of many low resource languages. We train a number of transformer-based models to investigate how to improve domain transfer from religious data to a more general domain. We find that adding even 300 sentences from the target domain when training substantially improves the translation performance, highlighting the importance and need for data collection for low-resource languages, even on a small-scale. We additionally find that Portuguese-to-Kiriol translation models perform better on average than other source and target language pairs, and investigate how this relates to the morphological complexity of the languages involved and the degree of lexical overlap between creoles and lexifiers. Overall, we hope our work will stimulate research into Kiriol and into how machine translation might better support creole languages in general.
- Abstract(参考訳): ギニアビサウクレオール(キリオール)の機械翻訳のための新しいデータセットを導入する。
このデータセットは、主に宗教的なデータ(聖書やジェホバの証書からのテキスト)と、少数の一般ドメインデータ(辞書からの)で構成されている。
これは、多くの低リソース言語が利用可能な典型的なリソースを反映している。
我々は、宗教データからより一般的なドメインへのドメイン転送を改善するために、多くのトランスフォーマーベースのモデルを訓練する。
学習時にターゲットドメインから300の文を追加することで翻訳性能が大幅に向上し、小規模でも低リソース言語におけるデータ収集の重要性と必要性が浮き彫りになる。
さらに,ポルトガル語からキリオル語への翻訳モデルは,他のソースや対象言語よりも平均的に優れており,これらが関係する言語の形態的複雑さとクレオールとレキシエータ間の語彙的重複度にどのように関係しているかを考察した。
全体として、我々の研究がキリオールの研究を刺激し、機械翻訳がクレオール言語全般をどのようにサポートするかについて研究することを願っている。
関連論文リスト
- NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - NollySenti: Leveraging Transfer Learning and Machine Translation for
Nigerian Movie Sentiment Classification [10.18858070640917]
アフリカには2000以上の先住民族の言語があるが、データセットが不足しているため、NLPの研究では不足している。
私たちは、ナイジェリアで広く話されている5つの言語(英語、ハウサ語、イグボ語、ナイジェリア・ピジン語、ヨルバ語)のノリーウッド映画レビューに基づいて、新しいデータセット、NollySentiを作成しました。
論文 参考訳(メタデータ) (2023-05-18T13:38:36Z) - Taxi1500: A Multilingual Dataset for Text Classification in 1500 Languages [40.01333053375582]
我々は、多数の言語を含むテキスト分類データセットを作成することを目指している。
我々は、このようなデータセットを構築するために聖書の平行翻訳を利用する。
データの英語側をアノテートし、アライメントされた節を通してラベルを他の言語に投影することにより、1500以上の言語に対してテキスト分類データセットを生成する。
論文 参考訳(メタデータ) (2023-05-15T09:43:32Z) - Investigating Lexical Sharing in Multilingual Machine Translation for
Indian Languages [8.858671209228536]
ネパールのヒンディー語から英語への多言語機械翻訳における語彙共有について検討した。
文字の書き起こしが顕著な改善を与えていないことが分かりました。
分析の結果,オリジナルスクリプトでトレーニングした多言語MTモデルは,すでに多言語間の違いに対して堅牢であることがわかった。
論文 参考訳(メタデータ) (2023-05-04T23:35:15Z) - Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - NaijaSenti: A Nigerian Twitter Sentiment Corpus for Multilingual
Sentiment Analysis [5.048355865260207]
ナイジェリアでもっとも広く話されている4言語に対して、人手によるTwitter感情データセットを初めて導入する。
データセットは1言語あたり約30,000の注釈付きツイートで構成されている。
私たちは、データセット、訓練されたモデル、感情レキシコン、コードをリリースし、表現不足言語における感情分析の研究にインセンティブを与えます。
論文 参考訳(メタデータ) (2022-01-20T16:28:06Z) - AUGVIC: Exploiting BiText Vicinity for Low-Resource NMT [9.797319790710711]
AUGVICは低リソースNMTのための新しいデータ拡張フレームワークである。
余分なモノリンガルデータを明示的に使用せずに、与えられたbitextのヴィジナルサンプルを利用する。
AUGVICは、従来のバックトランスレーションにおいて、関連ドメインと遠隔ドメインのモノリンガルデータの相違を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-06-09T15:29:18Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。