論文の概要: Language Resources and Technologies for Non-Scheduled and Endangered
Indian Languages
- arxiv url: http://arxiv.org/abs/2204.02822v1
- Date: Wed, 6 Apr 2022 13:33:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 14:15:15.044074
- Title: Language Resources and Technologies for Non-Scheduled and Endangered
Indian Languages
- Title(参考訳): 非スケジュール・絶滅危惧言語のための言語資源と技術
- Authors: Ritesh Kumar, Bornini Lahiri
- Abstract要約: インドの非スケジュール言語および絶滅危惧言語で利用可能な言語資源と技術の調査。
インド憲法第8条に記載されている22の言語のうち、他の言語で利用可能な実質的な資源や技術はほとんどない。
- 参考スコア(独自算出の注目度): 0.9137554315375919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the present paper, we will present a survey of the language resources and
technologies available for the non-scheduled and endangered languages of India.
While there have been different estimates from different sources about the
number of languages in India, it could be assumed that there are more than
1,000 languages currently being spoken in India. However barring some of the 22
languages included in the 8th Schedule of the Indian Constitution (called the
scheduled languages), there is hardly any substantial resource or technology
available for the rest of the languages. Nonetheless there have been some
individual attempts at developing resources and technologies for the different
languages across the country. Of late, some financial support has also become
available for the endangered languages. In this paper, we give a summary of the
resources and technologies for those Indian languages which are not included in
the 8th schedule of the Indian Constitution and/or which are endangered.
- Abstract(参考訳): 本稿では、インドにおける非スケジュール言語および絶滅危惧言語で利用可能な言語資源と技術について調査する。
インドにおける言語数については、様々な情報源から異なる推定がなされているが、現在インドで話されている言語は1000以上あると推測できる。
しかし、インド憲法第8条(予定言語と呼ばれる)に含まれる22の言語の一部を禁止しているため、他の言語には実質的な資源や技術はほとんど存在しない。
それにもかかわらず、各国の異なる言語のためのリソースや技術を開発する試みがいくつかある。
遅かれ早かれ、いくつかの財政的サポートが絶滅危惧言語で利用可能になった。
本稿では,インド憲法第8条に規定されていないインド諸言語の資源と技術について概説する。
関連論文リスト
- Indigenous Languages Spoken in Argentina: A Survey of NLP and Speech Resources [45.07333085270152]
アルゼンチンには、少なくとも40の異なる言語を含む、大きながほとんど知られていない先住民族の言語多様性がある。
我々はアルゼンチンで話される先住民族の言語を体系化し、それらを7つの言語族に分類する。
それぞれについて、最新のアルゼンチンの国勢調査に基づいて、全国の先住民の人口規模を推定する。
論文 参考訳(メタデータ) (2025-01-17T03:47:19Z) - Survey of Pseudonymization, Abstractive Summarization & Spell Checker for Hindi and Marathi [0.0]
本研究の目的は,英語,ヒンディー語,マラティア語でテキスト匿名化,抽象的テキスト要約,スペルチェックなど,さまざまな機能を利用できるプラットフォームを構築することである。
これらのツールの目的は、主にインド地域言語を使用する企業や消費者の顧客に提供することである。
論文 参考訳(メタデータ) (2024-12-24T04:51:32Z) - A Review of the Marathi Natural Language Processing [0.0]
本稿では,インド語におけるNLP研究の進展について概説する。
Marathiと、研究コミュニティが利用できる最先端のリソースとツールに焦点を当てている。
論文 参考訳(メタデータ) (2024-12-20T00:56:13Z) - BhasaAnuvaad: A Speech Translation Dataset for 13 Indian Languages [27.273651323572786]
インド語における広く使われている自動音声翻訳システムの性能を評価する。
口語と非公式の言語を正確に翻訳できるシステムが存在しないことは顕著である。
BhasaAnuvaadを紹介します。ASTの公開データセットとしては最大で、22のインド言語と英語のうち13が対象です。
論文 参考訳(メタデータ) (2024-11-07T13:33:34Z) - SPRING-INX: A Multilingual Indian Language Speech Corpus by SPRING Lab,
IIT Madras [1.4699314771635081]
インド国民のための音声ベースのアプリケーションを構築することは、限られたデータと対応すべき言語やアクセントの数のために難しい問題である。
我々は、アサメ、ベンガル、グジャラート、ヒンディー、カナダ、マラヤラム、マラティア、オディア、パンジャビ、タミルのASRシステム構築のための2000時間に及ぶ法的および手書きの音声データをオープンソース化している。
論文 参考訳(メタデータ) (2023-10-23T07:50:10Z) - GlobalBench: A Benchmark for Global Progress in Natural Language
Processing [114.24519009839142]
GlobalBenchは、すべての言語におけるすべてのNLPデータセットの進捗を追跡することを目的としている。
話者当たりのユーティリティと、全言語にわたるテクノロジのエクイティをトラックする。
現在、GlobalBenchは190言語で966のデータセットをカバーしており、62言語にまたがる1,128のシステムサブミッションを持っている。
論文 参考訳(メタデータ) (2023-05-24T04:36:32Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z) - NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local
Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。
インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。
インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文 参考訳(メタデータ) (2022-05-31T17:03:50Z) - Factorization of Fact-Checks for Low Resource Indian Languages [44.94080515860928]
FactDRILは、インドの地域言語のための最初の大規模多言語ファクトチェックデータセットです。
本データセットは英語9,058サンプル,ヒンディー語5,155サンプルからなり,残りの8,222サンプルは様々な地域言語に分布する。
このデータセットは貴重なリソースであり、低リソース言語での偽ニュースの拡散と戦う出発点となると期待しています。
論文 参考訳(メタデータ) (2021-02-23T16:47:41Z) - A Summary of the First Workshop on Language Technology for Language
Documentation and Revitalization [70.14668193220528]
2019年8月、カーネギーメロン大学でワークショップが開かれ、言語コミュニティのメンバー、ドキュメンタリー言語学者、技術者を集結させようとした。
本報告では,ワークショップの結果を報告するとともに,9言語を対象とした様々な技術が開発され,実装されている。
論文 参考訳(メタデータ) (2020-04-27T22:55:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。