論文の概要: Challenges in Developing LRs for Non-Scheduled Languages: A Case of
Magahi
- arxiv url: http://arxiv.org/abs/2111.15322v1
- Date: Tue, 30 Nov 2021 12:07:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 14:40:38.931658
- Title: Challenges in Developing LRs for Non-Scheduled Languages: A Case of
Magahi
- Title(参考訳): 非スケジュール言語LR開発における課題--マガヒを事例として
- Authors: Ritesh Kumar
- Abstract要約: マガヒ語(Magahi)はインド・アーリア語族の言語で、主にインド東部で話されている。
かなりの数の話者がいるにもかかわらず、言語リソース(LR)や言語技術(LT)は事実上存在しない。
- 参考スコア(独自算出の注目度): 1.2691047660244332
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Magahi is an Indo-Aryan Language, spoken mainly in the Eastern parts of
India. Despite having a significant number of speakers, there has been
virtually no language resource (LR) or language technology (LT) developed for
the language, mainly because of its status as a non-scheduled language. The
present paper describes an attempt to develop an annotated corpus of Magahi.
The data is mainly taken from a couple of blogs in Magahi, some collection of
stories in Magahi and the recordings of conversation in Magahi and it is
annotated at the POS level using BIS tagset.
- Abstract(参考訳): マガヒ語(Magahi)はインド・アーリア語族の言語で、主にインド東部で話されている。
多くの話者がいるにもかかわらず、言語のための言語リソース(lr)や言語技術(lt)は事実上存在せず、主に非スケジュール言語としての地位にある。
本稿では,マガヒの注釈付きコーパスを開発する試みについて述べる。
データは、主にマガヒのいくつかのブログ、マガヒのいくつかの記事集、マガヒの会話の記録から収集され、BISタグセットを使用してPOSレベルで注釈付けされている。
関連論文リスト
- CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - Mukhyansh: A Headline Generation Dataset for Indic Languages [4.583536403673757]
Mukhyanshは、インド語の見出し生成に適した、広範囲にわたる多言語データセットである。
ムハーンシュ語は3億3900万以上の記事の見出しから成り、8つの著名なインドの言語にまたがっている。
Mukhyanshは、他のすべてのモデルより優れており、平均ROUGE-Lスコアは8言語すべてで31.43である。
論文 参考訳(メタデータ) (2023-11-29T15:49:24Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - Approaches to Corpus Creation for Low-Resource Language Technology: the
Case of Southern Kurdish and Laki [29.27024733066261]
このような表現不足言語,特に書込みや標準化における課題について述べる。
また、クルド語やザザ・ゴラーニ語の他の変種に照らして、言語識別の課題についても検討する。
論文 参考訳(メタデータ) (2023-04-03T19:36:32Z) - Predicting the Type and Target of Offensive Social Media Posts in
Marathi [12.454406287184064]
Marathi Offensive Language データセット v.2.0 や MOLD 2.0 を紹介します。
MOLD 2.0は、Marathi用にコンパイルされた最初の階層型攻撃型言語データセットである。
また、SOLIDで示される半教師付き手法に従って注釈付けされたより大きなデータセットであるSeMOLDについても紹介する。
論文 参考訳(メタデータ) (2022-11-22T20:36:44Z) - Annotated Speech Corpus for Low Resource Indian Languages: Awadhi,
Bhojpuri, Braj and Magahi [2.84214511742034]
Awadhi, Bhojpuri, Braj, Magahiの4つの低リソースインド・アーリア語のための音声コーパスを開発する。
現在、コーパスの総サイズは約18時間である。
新型コロナウイルスのパンデミックの真っ最中に行われたこれらの言語におけるデータ収集の方法論について論じる。
論文 参考訳(メタデータ) (2022-06-26T17:28:38Z) - NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local
Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。
インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。
インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文 参考訳(メタデータ) (2022-05-31T17:03:50Z) - Cross-lingual Offensive Language Identification for Low Resource
Languages: The Case of Marathi [2.4737119633827174]
MOLDはMarathiのためにコンパイルされた最初のデータセットであり、低リソースのインド・アーリア語の研究のための新しいドメインを開設した。
このデータセットに関するいくつかの機械学習実験の結果は、ゼロショートや最先端の言語間変換器に関する他のトランスファーラーニング実験を含む。
論文 参考訳(メタデータ) (2021-09-08T11:29:44Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z) - A Summary of the First Workshop on Language Technology for Language
Documentation and Revitalization [70.14668193220528]
2019年8月、カーネギーメロン大学でワークショップが開かれ、言語コミュニティのメンバー、ドキュメンタリー言語学者、技術者を集結させようとした。
本報告では,ワークショップの結果を報告するとともに,9言語を対象とした様々な技術が開発され,実装されている。
論文 参考訳(メタデータ) (2020-04-27T22:55:55Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。