論文の概要: Linguistic Resources for Bhojpuri, Magahi and Maithili: Statistics about
them, their Similarity Estimates, and Baselines for Three Applications
- arxiv url: http://arxiv.org/abs/2004.13945v2
- Date: Tue, 17 Aug 2021 05:54:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 13:35:13.887115
- Title: Linguistic Resources for Bhojpuri, Magahi and Maithili: Statistics about
them, their Similarity Estimates, and Baselines for Three Applications
- Title(参考訳): Bhojpuri, Magahi, Maithili の言語資源:その統計, その類似性評価, 3つの応用のベースライン
- Authors: Rajesh Kumar Mundotiya, Manish Kumar Singh, Rahul Kapur, Swasti
Mishra, Anil Kumar Singh
- Abstract要約: Bhojpuri、Magahi、Maithiliはインドのプルヴァンチャル地方の低資源言語である。
我々は,これらのコーパスについて,文字,単語,音節,形態素レベルでの基本的な統計的尺度を算出した。
結果は標準ヒンディー語コーパスと比較された。
- 参考スコア(独自算出の注目度): 0.6649753747542209
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Corpus preparation for low-resource languages and for development of human
language technology to analyze or computationally process them is a laborious
task, primarily due to the unavailability of expert linguists who are native
speakers of these languages and also due to the time and resources required.
Bhojpuri, Magahi, and Maithili, languages of the Purvanchal region of India (in
the north-eastern parts), are low-resource languages belonging to the
Indo-Aryan (or Indic) family. They are closely related to Hindi, which is a
relatively high-resource language, which is why we compare with Hindi. We
collected corpora for these three languages from various sources and cleaned
them to the extent possible, without changing the data in them. The text
belongs to different domains and genres. We calculated some basic statistical
measures for these corpora at character, word, syllable, and morpheme levels.
These corpora were also annotated with parts-of-speech (POS) and chunk tags.
The basic statistical measures were both absolute and relative and were
exptected to indicate of linguistic properties such as morphological, lexical,
phonological, and syntactic complexities (or richness). The results were
compared with a standard Hindi corpus. For most of the measures, we tried to
the corpus size the same across the languages to avoid the effect of corpus
size, but in some cases it turned out that using the full corpus was better,
even if sizes were very different. Although the results are not very clear, we
try to draw some conclusions about the languages and the corpora. For POS
tagging and chunking, the BIS tagset was used to manually annotate the data.
The POS tagged data sizes are 16067, 14669 and 12310 sentences, respectively,
for Bhojpuri, Magahi and Maithili. The sizes for chunking are 9695 and 1954
sentences for Bhojpuri and Maithili, respectively.
- Abstract(参考訳): 低リソース言語のためのコーパス準備と、それらを分析または計算処理するための人間の言語技術の開発は、主にこれらの言語の母語話者である専門言語学者の不利さと、必要な時間とリソースのために、大変な作業である。
ブージュリ語(bhojpuri)、マガヒ語(magahi)、マイティリ語(maithili)は、インド・アーリア語族(indo-aryan)に属する低資源言語である。
それらは、比較的高いリソース言語であるヒンディー語と密接に関連しているため、ヒンディー語と比較します。
我々はこれらの3言語を様々なソースから収集し、データを変更することなく可能な限りクリーンにしました。
テキストは異なるドメインやジャンルに属します。
文字,単語,音節,形態素レベルでのコーパスの基本的な統計指標を計算した。
これらのコーパスにはpos(parts-of-speech)やチャンクタグが付された。
基本的な統計測度は絶対的かつ相対的であり、形態学、語彙学、音韻学、統語論の複雑さ(あるいは豊かさ)などの言語特性を示すために現れた。
結果は標準ヒンディー語コーパスと比較された。
ほとんどの尺度では、コーパスサイズの影響を避けるために、言語全体で同じコーパスサイズを試みましたが、場合によっては、コーパスサイズが大きく違っても、完全なコーパスを使用する方がよいことが分かりました。
結果はあまりはっきりしないが、言語とコーパスについていくつかの結論を引き出そうとしている。
POSタグ付けとチャンキングのために、BISタグセットは手動でデータをアノテートするために使われた。
POSタグ付きデータサイズはBhojpuri, Magahi, Maithiliのそれぞれ16067, 14669, 12310文である。
チャンキングのサイズは、Bhojpuri と Maithili それぞれ9695 と1954 の文である。
関連論文リスト
- NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - SAHAAYAK 2023 -- the Multi Domain Bilingual Parallel Corpus of Sanskrit
to Hindi for Machine Translation [0.0]
コーパスには、サンスクリットとヒンディー語の間の合計1.5万の文対が含まれている。
複数のドメインからのデータは、ニュース、デイリーの会話、政治、歴史、スポーツ、古代インド文学を含むコーパスに組み込まれている。
論文 参考訳(メタデータ) (2023-06-27T11:06:44Z) - Machine Translation by Projecting Text into the Same
Phonetic-Orthographic Space Using a Common Encoding [3.0422770070015295]
本稿では,言語類似性を利用した共通多言語ラテン文字符号化(WX表記法)を提案する。
提案手法を類似言語対の実験により検証する。
また、遠距離とゼロショットの言語ペアで最大1BLEUポイントの改善も行います。
論文 参考訳(メタデータ) (2023-05-21T06:46:33Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Annotated Speech Corpus for Low Resource Indian Languages: Awadhi,
Bhojpuri, Braj and Magahi [2.84214511742034]
Awadhi, Bhojpuri, Braj, Magahiの4つの低リソースインド・アーリア語のための音声コーパスを開発する。
現在、コーパスの総サイズは約18時間である。
新型コロナウイルスのパンデミックの真っ最中に行われたこれらの言語におけるデータ収集の方法論について論じる。
論文 参考訳(メタデータ) (2022-06-26T17:28:38Z) - Harnessing Cross-lingual Features to Improve Cognate Detection for
Low-resource Languages [50.82410844837726]
言語間単語埋め込みを用いた14言語間のコニャートの検出を実証する。
インドの12言語からなる挑戦的データセットを用いて,コニャート検出手法の評価を行った。
我々は,コグネート検出のためのFスコアで最大18%の改善点を観察した。
論文 参考訳(メタデータ) (2021-12-16T11:17:58Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - L3CubeMahaSent: A Marathi Tweet-based Sentiment Analysis Dataset [0.0]
本稿では,Marathi Sentiment Analysis データセットである L3MahaSent について述べる。
様々なマハラシュトリア人格のtwitterアカウントから抽出されたツイートを用いて収集される。
私たちのデータセットは3つの広いクラスvizに分類される16,000の異なるツイートで構成されています。
正、負、中立。
論文 参考訳(メタデータ) (2021-03-21T14:22:13Z) - A Multilingual Parallel Corpora Collection Effort for Indian Languages [43.62422999765863]
インドではヒンディー語、テルグ語、タミル語、マラヤラム語、グジャラート語、ウルドゥー語、ベンガル語、オリヤ語、マラティー語、パンジャービ語、英語の10言語に平行なコーパスを提示する。
コーパスは、言語間でコンテンツを共有するオンラインソースからコンパイルされる。
論文 参考訳(メタデータ) (2020-07-15T14:00:18Z) - A Corpus for Large-Scale Phonetic Typology [112.19288631037055]
本稿では,VoxClamantis v1.0について紹介する。
635言語にまたがる690の音素レベルラベルと690の音素レベルラベルと母音とシビラントの音響・音韻測定を行った。
論文 参考訳(メタデータ) (2020-05-28T13:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。