論文の概要: Improving Yor\`ub\'a Diacritic Restoration
- arxiv url: http://arxiv.org/abs/2003.10564v1
- Date: Mon, 23 Mar 2020 22:07:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 00:06:53.958140
- Title: Improving Yor\`ub\'a Diacritic Restoration
- Title(参考訳): yor\`ub\'aダイアクリティック修復の改善
- Authors: Iroro Orife, David I. Adelani, Timi Fasubaa, Victor Williamson,
Wuraola Fisayo Oyewusi, Olamilekan Wahab, Kola Tubosun
- Abstract要約: ヨルバ語(Yorub'a)は西アフリカで広く話されている言語で、書記体系は正書法や音節の発音に富んでいる。
ダイアクリティカルマークは、デバイスやアプリケーションのサポートの制限や、適切な使用に関する一般的な教育のため、電子テキストから除外されることが多い。
事前訓練されたモデル、データセット、ソースコードはすべて、Yorub'a言語技術への取り組みを進めるためのオープンソースプロジェクトとしてリリースされた。
- 参考スコア(独自算出の注目度): 3.301896537513352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Yor\`ub\'a is a widely spoken West African language with a writing system
rich in orthographic and tonal diacritics. They provide morphological
information, are crucial for lexical disambiguation, pronunciation and are
vital for any computational Speech or Natural Language Processing tasks.
However diacritic marks are commonly excluded from electronic texts due to
limited device and application support as well as general education on proper
usage. We report on recent efforts at dataset cultivation. By aggregating and
improving disparate texts from the web and various personal libraries, we were
able to significantly grow our clean Yor\`ub\'a dataset from a majority
Bibilical text corpora with three sources to millions of tokens from over a
dozen sources. We evaluate updated diacritic restoration models on a new,
general purpose, public-domain Yor\`ub\'a evaluation dataset of modern
journalistic news text, selected to be multi-purpose and reflecting
contemporary usage. All pre-trained models, datasets and source-code have been
released as an open-source project to advance efforts on Yor\`ub\'a language
technology.
- Abstract(参考訳): Yor\`ub\'a は西アフリカで広く話されている言語で、書記体系は正書法と声調のダイアクリティカルスに富んでいる。
形態情報を提供し、語彙の曖昧さ、発音に不可欠であり、あらゆる計算音声や自然言語処理タスクに不可欠である。
しかしながら、ダイアクリティカルマークは、デバイスやアプリケーションのサポートの制限や適切な使用に関する一般的な教育のため、電子テキストから除外されることが多い。
我々は,最近のデータセット栽培の取り組みについて報告する。
webやさまざまな個人ライブラリから異なるテキストを集約し、改善することで、クリーンなyor\`ub\'aデータセットを3つのソースから数十以上のソースから数百万のトークンに拡大することが可能になりました。
我々は,現代ジャーナリストのニューステキストの評価データセットであるYor\ub\'aを,多目的かつ現代的利用を反映した更新ダイアクリティカル復元モデルの評価を行った。
事前トレーニングされたモデル、データセット、ソースコードはすべて、yor\`ub\'a言語技術への取り組みを進めるためのオープンソースプロジェクトとしてリリースされた。
関連論文リスト
- KoMultiText: Large-Scale Korean Text Dataset for Classifying Biased
Speech in Real-World Online Services [5.03606775899383]
KoMultiText"は、韓国の有名なSNSプラットフォームから収集された、包括的で大規模なデータセットである。
本手法は,多種多様な分類課題にまたがる人間レベルの精度を,様々な指標で測定する。
私たちの研究は、現実のヘイトスピーチとバイアス軽減のためのソリューションを提供し、オンラインコミュニティの健康改善に直接貢献します。
論文 参考訳(メタデータ) (2023-10-06T15:19:39Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - GujiBERT and GujiGPT: Construction of Intelligent Information Processing
Foundation Language Models for Ancient Texts [11.289265479095956]
GujiBERTとGujiGPT言語モデルは、古代のテキストの知的情報処理に特化した基礎モデルである。
これらのモデルは、単純化された漢字と伝統的な漢字の両方を含む広範なデータセットで訓練されている。
これらのモデルは、公開データセットを使用して、さまざまなバリデーションタスクで例外的なパフォーマンスを示しています。
論文 参考訳(メタデータ) (2023-07-11T15:44:01Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Whose Language Counts as High Quality? Measuring Language Ideologies in
Text Data Selection [83.3580786484122]
より富裕で、教育され、都会のZIPコードにある大きな学校の新聞は、質の高いものとして分類される傾向にある。
高品質なコーパスを特権化するには言語イデオロギーが必要です。
論文 参考訳(メタデータ) (2022-01-25T17:20:04Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - A Multitask Learning Approach for Diacritic Restoration [21.288912928687186]
アラビア語のような多くの言語では、発音と意味を区別するためにダイアクリティカルが用いられる。
このようなダイアクリティカル語はテキストで省略されることが多く、単語の発音や意味の数が増加する。
我々は、共同モデリングにおいて考慮すべきタスクに十分なデータ資源があるため、ケーススタディとしてアラビア語を使用します。
論文 参考訳(メタデータ) (2020-06-07T01:20:40Z) - Russian Natural Language Generation: Creation of a Language Modelling
Dataset and Evaluation with Modern Neural Architectures [0.0]
ロシア語モデリングのための新しい参照データセットを提供する。
我々は、テキスト生成、すなわち変分オートエンコーダ、および生成的敵ネットワークのための一般的なモダンな手法を実験した。
我々は, 難易度, 文法的正しさ, 語彙的多様性などの指標について, 生成したテキストを評価する。
論文 参考訳(メタデータ) (2020-05-05T20:20:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。