論文の概要: Language Resources and Technologies for Non-Scheduled and Endangered
Indian Languages
- arxiv url: http://arxiv.org/abs/2204.02822v1
- Date: Wed, 6 Apr 2022 13:33:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 14:15:15.044074
- Title: Language Resources and Technologies for Non-Scheduled and Endangered
Indian Languages
- Title(参考訳): 非スケジュール・絶滅危惧言語のための言語資源と技術
- Authors: Ritesh Kumar, Bornini Lahiri
- Abstract要約: インドの非スケジュール言語および絶滅危惧言語で利用可能な言語資源と技術の調査。
インド憲法第8条に記載されている22の言語のうち、他の言語で利用可能な実質的な資源や技術はほとんどない。
- 参考スコア(独自算出の注目度): 0.9137554315375919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the present paper, we will present a survey of the language resources and
technologies available for the non-scheduled and endangered languages of India.
While there have been different estimates from different sources about the
number of languages in India, it could be assumed that there are more than
1,000 languages currently being spoken in India. However barring some of the 22
languages included in the 8th Schedule of the Indian Constitution (called the
scheduled languages), there is hardly any substantial resource or technology
available for the rest of the languages. Nonetheless there have been some
individual attempts at developing resources and technologies for the different
languages across the country. Of late, some financial support has also become
available for the endangered languages. In this paper, we give a summary of the
resources and technologies for those Indian languages which are not included in
the 8th schedule of the Indian Constitution and/or which are endangered.
- Abstract(参考訳): 本稿では、インドにおける非スケジュール言語および絶滅危惧言語で利用可能な言語資源と技術について調査する。
インドにおける言語数については、様々な情報源から異なる推定がなされているが、現在インドで話されている言語は1000以上あると推測できる。
しかし、インド憲法第8条(予定言語と呼ばれる)に含まれる22の言語の一部を禁止しているため、他の言語には実質的な資源や技術はほとんど存在しない。
それにもかかわらず、各国の異なる言語のためのリソースや技術を開発する試みがいくつかある。
遅かれ早かれ、いくつかの財政的サポートが絶滅危惧言語で利用可能になった。
本稿では,インド憲法第8条に規定されていないインド諸言語の資源と技術について概説する。
関連論文リスト
- IndicVoices: Towards building an Inclusive Multilingual Speech Dataset
for Indian Languages [17.862027695142825]
INDICVOICESは、145のインド地区と22の言語をカバーする16237人の話者による自然および自発的なスピーチのデータセットである。
1639時間は既に書き起こされており、言語ごとの平均的な時間は73時間である。
この作業の一部として開発されたデータ、ツール、ガイドライン、モデル、その他の材料はすべて公開されます。
論文 参考訳(メタデータ) (2024-03-04T10:42:08Z) - SPRING-INX: A Multilingual Indian Language Speech Corpus by SPRING Lab,
IIT Madras [1.4699314771635081]
インド国民のための音声ベースのアプリケーションを構築することは、限られたデータと対応すべき言語やアクセントの数のために難しい問題である。
我々は、アサメ、ベンガル、グジャラート、ヒンディー、カナダ、マラヤラム、マラティア、オディア、パンジャビ、タミルのASRシステム構築のための2000時間に及ぶ法的および手書きの音声データをオープンソース化している。
論文 参考訳(メタデータ) (2023-10-23T07:50:10Z) - GlobalBench: A Benchmark for Global Progress in Natural Language
Processing [114.24519009839142]
GlobalBenchは、すべての言語におけるすべてのNLPデータセットの進捗を追跡することを目的としている。
話者当たりのユーティリティと、全言語にわたるテクノロジのエクイティをトラックする。
現在、GlobalBenchは190言語で966のデータセットをカバーしており、62言語にまたがる1,128のシステムサブミッションを持っている。
論文 参考訳(メタデータ) (2023-05-24T04:36:32Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z) - NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local
Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。
インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。
インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文 参考訳(メタデータ) (2022-05-31T17:03:50Z) - Factorization of Fact-Checks for Low Resource Indian Languages [44.94080515860928]
FactDRILは、インドの地域言語のための最初の大規模多言語ファクトチェックデータセットです。
本データセットは英語9,058サンプル,ヒンディー語5,155サンプルからなり,残りの8,222サンプルは様々な地域言語に分布する。
このデータセットは貴重なリソースであり、低リソース言語での偽ニュースの拡散と戦う出発点となると期待しています。
論文 参考訳(メタデータ) (2021-02-23T16:47:41Z) - A Multilingual Parallel Corpora Collection Effort for Indian Languages [43.62422999765863]
インドではヒンディー語、テルグ語、タミル語、マラヤラム語、グジャラート語、ウルドゥー語、ベンガル語、オリヤ語、マラティー語、パンジャービ語、英語の10言語に平行なコーパスを提示する。
コーパスは、言語間でコンテンツを共有するオンラインソースからコンパイルされる。
論文 参考訳(メタデータ) (2020-07-15T14:00:18Z) - SIGMORPHON 2020 Shared Task 0: Typologically Diverse Morphological
Inflection [81.85463892070085]
形態的回帰に関するSIGMORPHON 2020の課題は、型的に異なる言語にまたがるシステムの一般化能力を調査することを目的としている。
システムは45言語と5つの言語ファミリーのデータを使用して開発され、追加の45言語と10の言語ファミリー(合計13言語)のデータで微調整され、90言語すべてで評価された。
論文 参考訳(メタデータ) (2020-06-20T13:24:14Z) - A Summary of the First Workshop on Language Technology for Language
Documentation and Revitalization [70.14668193220528]
2019年8月、カーネギーメロン大学でワークショップが開かれ、言語コミュニティのメンバー、ドキュメンタリー言語学者、技術者を集結させようとした。
本報告では,ワークショップの結果を報告するとともに,9言語を対象とした様々な技術が開発され,実装されている。
論文 参考訳(メタデータ) (2020-04-27T22:55:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。