論文の概要: Improving Yor\`ub\'a Diacritic Restoration
- arxiv url: http://arxiv.org/abs/2003.10564v1
- Date: Mon, 23 Mar 2020 22:07:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 00:06:53.958140
- Title: Improving Yor\`ub\'a Diacritic Restoration
- Title(参考訳): yor\`ub\'aダイアクリティック修復の改善
- Authors: Iroro Orife, David I. Adelani, Timi Fasubaa, Victor Williamson,
Wuraola Fisayo Oyewusi, Olamilekan Wahab, Kola Tubosun
- Abstract要約: ヨルバ語(Yorub'a)は西アフリカで広く話されている言語で、書記体系は正書法や音節の発音に富んでいる。
ダイアクリティカルマークは、デバイスやアプリケーションのサポートの制限や、適切な使用に関する一般的な教育のため、電子テキストから除外されることが多い。
事前訓練されたモデル、データセット、ソースコードはすべて、Yorub'a言語技術への取り組みを進めるためのオープンソースプロジェクトとしてリリースされた。
- 参考スコア(独自算出の注目度): 3.301896537513352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Yor\`ub\'a is a widely spoken West African language with a writing system
rich in orthographic and tonal diacritics. They provide morphological
information, are crucial for lexical disambiguation, pronunciation and are
vital for any computational Speech or Natural Language Processing tasks.
However diacritic marks are commonly excluded from electronic texts due to
limited device and application support as well as general education on proper
usage. We report on recent efforts at dataset cultivation. By aggregating and
improving disparate texts from the web and various personal libraries, we were
able to significantly grow our clean Yor\`ub\'a dataset from a majority
Bibilical text corpora with three sources to millions of tokens from over a
dozen sources. We evaluate updated diacritic restoration models on a new,
general purpose, public-domain Yor\`ub\'a evaluation dataset of modern
journalistic news text, selected to be multi-purpose and reflecting
contemporary usage. All pre-trained models, datasets and source-code have been
released as an open-source project to advance efforts on Yor\`ub\'a language
technology.
- Abstract(参考訳): Yor\`ub\'a は西アフリカで広く話されている言語で、書記体系は正書法と声調のダイアクリティカルスに富んでいる。
形態情報を提供し、語彙の曖昧さ、発音に不可欠であり、あらゆる計算音声や自然言語処理タスクに不可欠である。
しかしながら、ダイアクリティカルマークは、デバイスやアプリケーションのサポートの制限や適切な使用に関する一般的な教育のため、電子テキストから除外されることが多い。
我々は,最近のデータセット栽培の取り組みについて報告する。
webやさまざまな個人ライブラリから異なるテキストを集約し、改善することで、クリーンなyor\`ub\'aデータセットを3つのソースから数十以上のソースから数百万のトークンに拡大することが可能になりました。
我々は,現代ジャーナリストのニューステキストの評価データセットであるYor\ub\'aを,多目的かつ現代的利用を反映した更新ダイアクリティカル復元モデルの評価を行った。
事前トレーニングされたモデル、データセット、ソースコードはすべて、yor\`ub\'a言語技術への取り組みを進めるためのオープンソースプロジェクトとしてリリースされた。
関連論文リスト
- Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - Towards Zero-Shot Text-To-Speech for Arabic Dialects [16.10882912169842]
ZS-TTS (Zero-shot Multi-Speaker text-to-speech) システムは英語に進歩しているが、リソース不足のためまだ遅れている。
まず、既存のデータセットを音声合成のニーズに合わせて適応させることにより、アラビア語のこのギャップに対処する。
アラビア語の方言識別モデルを用いて、予め定義された方言ラベルが多言語環境でのZS-TTSモデルの改善に与える影響を探索する。
論文 参考訳(メタデータ) (2024-06-24T15:58:15Z) - Arabic Diacritics in the Wild: Exploiting Opportunities for Improved Diacritization [9.191117990275385]
アラビア語テキストにおけるダイアクリティカルマークの欠如は、アラビア語自然言語処理(NLP)に重大な課題をもたらす
本稿では,自然発生型ダイアクリティカルティクスを「野生におけるダイアクリティカルティクス」と呼ぶ事例について検討する。
そこで本研究では,実世界の部分的辞書化単語を文脈における最大完全辞書化にマッピングする注釈付きデータセットを提案する。
論文 参考訳(メタデータ) (2024-06-09T12:29:55Z) - KoMultiText: Large-Scale Korean Text Dataset for Classifying Biased
Speech in Real-World Online Services [5.03606775899383]
KoMultiText"は、韓国の有名なSNSプラットフォームから収集された、包括的で大規模なデータセットである。
本手法は,多種多様な分類課題にまたがる人間レベルの精度を,様々な指標で測定する。
私たちの研究は、現実のヘイトスピーチとバイアス軽減のためのソリューションを提供し、オンラインコミュニティの健康改善に直接貢献します。
論文 参考訳(メタデータ) (2023-10-06T15:19:39Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Whose Language Counts as High Quality? Measuring Language Ideologies in
Text Data Selection [83.3580786484122]
より富裕で、教育され、都会のZIPコードにある大きな学校の新聞は、質の高いものとして分類される傾向にある。
高品質なコーパスを特権化するには言語イデオロギーが必要です。
論文 参考訳(メタデータ) (2022-01-25T17:20:04Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - A Multitask Learning Approach for Diacritic Restoration [21.288912928687186]
アラビア語のような多くの言語では、発音と意味を区別するためにダイアクリティカルが用いられる。
このようなダイアクリティカル語はテキストで省略されることが多く、単語の発音や意味の数が増加する。
我々は、共同モデリングにおいて考慮すべきタスクに十分なデータ資源があるため、ケーススタディとしてアラビア語を使用します。
論文 参考訳(メタデータ) (2020-06-07T01:20:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。