Fugu-MT 論文翻訳(概要): Language Resources and Technologies for Non-Scheduled and Endangered Indian Languages

論文の概要: Language Resources and Technologies for Non-Scheduled and Endangered Indian Languages

arxiv url: http://arxiv.org/abs/2204.02822v1
Date: Wed, 6 Apr 2022 13:33:24 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-07 14:15:15.044074
Title: Language Resources and Technologies for Non-Scheduled and Endangered Indian Languages
Title（参考訳）: 非スケジュール・絶滅危惧言語のための言語資源と技術
Authors: Ritesh Kumar, Bornini Lahiri
Abstract要約: インドの非スケジュール言語および絶滅危惧言語で利用可能な言語資源と技術の調査。インド憲法第8条に記載されている22の言語のうち、他の言語で利用可能な実質的な資源や技術はほとんどない。
参考スコア（独自算出の注目度）: 0.9137554315375919
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the present paper, we will present a survey of the language resources and technologies available for the non-scheduled and endangered languages of India. While there have been different estimates from different sources about the number of languages in India, it could be assumed that there are more than 1,000 languages currently being spoken in India. However barring some of the 22 languages included in the 8th Schedule of the Indian Constitution (called the scheduled languages), there is hardly any substantial resource or technology available for the rest of the languages. Nonetheless there have been some individual attempts at developing resources and technologies for the different languages across the country. Of late, some financial support has also become available for the endangered languages. In this paper, we give a summary of the resources and technologies for those Indian languages which are not included in the 8th schedule of the Indian Constitution and/or which are endangered.
Abstract（参考訳）: 本稿では、インドにおける非スケジュール言語および絶滅危惧言語で利用可能な言語資源と技術について調査する。インドにおける言語数については、様々な情報源から異なる推定がなされているが、現在インドで話されている言語は1000以上あると推測できる。しかし、インド憲法第8条(予定言語と呼ばれる)に含まれる22の言語の一部を禁止しているため、他の言語には実質的な資源や技術はほとんど存在しない。それにもかかわらず、各国の異なる言語のためのリソースや技術を開発する試みがいくつかある。遅かれ早かれ、いくつかの財政的サポートが絶滅危惧言語で利用可能になった。本稿では,インド憲法第8条に規定されていないインド諸言語の資源と技術について概説する。

関連論文リスト

Indigenous Languages Spoken in Argentina: A Survey of NLP and Speech Resources [45.07333085270152]
アルゼンチンには、少なくとも40の異なる言語を含む、大きながほとんど知られていない先住民族の言語多様性がある。我々はアルゼンチンで話される先住民族の言語を体系化し、それらを7つの言語族に分類する。それぞれについて、最新のアルゼンチンの国勢調査に基づいて、全国の先住民の人口規模を推定する。
論文参考訳（メタデータ） (2025-01-17T03:47:19Z)
Survey of Pseudonymization, Abstractive Summarization & Spell Checker for Hindi and Marathi [0.0]
本研究の目的は,英語,ヒンディー語,マラティア語でテキスト匿名化,抽象的テキスト要約,スペルチェックなど,さまざまな機能を利用できるプラットフォームを構築することである。これらのツールの目的は、主にインド地域言語を使用する企業や消費者の顧客に提供することである。
論文参考訳（メタデータ） (2024-12-24T04:51:32Z)
A Review of the Marathi Natural Language Processing [0.0]
本稿では,インド語におけるNLP研究の進展について概説する。 Marathiと、研究コミュニティが利用できる最先端のリソースとツールに焦点を当てている。
論文参考訳（メタデータ） (2024-12-20T00:56:13Z)
LIMBA: An Open-Source Framework for the Preservation and Valorization of Low-Resource Languages using Generative Models [62.47865866398233]
この白書は低リソース言語のための言語ツールを生成するためのフレームワークを提案する。このような言語に対するインテリジェントな応用を妨げるデータ不足に対処することにより、言語多様性の促進に寄与する。
論文参考訳（メタデータ） (2024-11-20T16:59:41Z)
BhasaAnuvaad: A Speech Translation Dataset for 13 Indian Languages [27.273651323572786]
インド語における広く使われている自動音声翻訳システムの性能を評価する。口語と非公式の言語を正確に翻訳できるシステムが存在しないことは顕著である。 BhasaAnuvaadを紹介します。ASTの公開データセットとしては最大で、22のインド言語と英語のうち13が対象です。
論文参考訳（メタデータ） (2024-11-07T13:33:34Z)
IndicVoices: Towards building an Inclusive Multilingual Speech Dataset for Indian Languages [17.862027695142825]
INDICVOICESは、145のインド地区と22の言語をカバーする16237人の話者による自然および自発的なスピーチのデータセットである。 1639時間は既に書き起こされており、言語ごとの平均的な時間は73時間である。この作業の一部として開発されたデータ、ツール、ガイドライン、モデル、その他の材料はすべて公開されます。
論文参考訳（メタデータ） (2024-03-04T10:42:08Z)
SPRING-INX: A Multilingual Indian Language Speech Corpus by SPRING Lab, IIT Madras [1.4699314771635081]
インド国民のための音声ベースのアプリケーションを構築することは、限られたデータと対応すべき言語やアクセントの数のために難しい問題である。我々は、アサメ、ベンガル、グジャラート、ヒンディー、カナダ、マラヤラム、マラティア、オディア、パンジャビ、タミルのASRシステム構築のための2000時間に及ぶ法的および手書きの音声データをオープンソース化している。
論文参考訳（メタデータ） (2023-10-23T07:50:10Z)
GlobalBench: A Benchmark for Global Progress in Natural Language Processing [114.24519009839142]
GlobalBenchは、すべての言語におけるすべてのNLPデータセットの進捗を追跡することを目的としている。話者当たりのユーティリティと、全言語にわたるテクノロジのエクイティをトラックする。現在、GlobalBenchは190言語で966のデータセットをカバーしており、62言語にまたがる1,128のシステムサブミッションを持っている。
論文参考訳（メタデータ） (2023-05-24T04:36:32Z)
Making a MIRACL: Multilingual Information Retrieval Across a Continuum of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。 18の言語にまたがるアドホック検索に焦点を当てている。我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文参考訳（メタデータ） (2022-10-18T16:47:18Z)
NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文参考訳（メタデータ） (2022-05-31T17:03:50Z)
Factorization of Fact-Checks for Low Resource Indian Languages [44.94080515860928]
FactDRILは、インドの地域言語のための最初の大規模多言語ファクトチェックデータセットです。本データセットは英語9,058サンプル,ヒンディー語5,155サンプルからなり,残りの8,222サンプルは様々な地域言語に分布する。このデータセットは貴重なリソースであり、低リソース言語での偽ニュースの拡散と戦う出発点となると期待しています。
論文参考訳（メタデータ） (2021-02-23T16:47:41Z)
A Multilingual Parallel Corpora Collection Effort for Indian Languages [43.62422999765863]
インドではヒンディー語、テルグ語、タミル語、マラヤラム語、グジャラート語、ウルドゥー語、ベンガル語、オリヤ語、マラティー語、パンジャービ語、英語の10言語に平行なコーパスを提示する。コーパスは、言語間でコンテンツを共有するオンラインソースからコンパイルされる。
論文参考訳（メタデータ） (2020-07-15T14:00:18Z)
A Summary of the First Workshop on Language Technology for Language Documentation and Revitalization [70.14668193220528]
2019年8月、カーネギーメロン大学でワークショップが開かれ、言語コミュニティのメンバー、ドキュメンタリー言語学者、技術者を集結させようとした。本報告では,ワークショップの結果を報告するとともに,9言語を対象とした様々な技術が開発され,実装されている。
論文参考訳（メタデータ） (2020-04-27T22:55:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。