論文の概要: A Review of the Marathi Natural Language Processing
- arxiv url: http://arxiv.org/abs/2412.15471v1
- Date: Fri, 20 Dec 2024 00:56:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:24:20.677690
- Title: A Review of the Marathi Natural Language Processing
- Title(参考訳): Marathi自然言語処理の概観
- Authors: Asang Dani, Shailesh R Sathe,
- Abstract要約: 本稿では,インド語におけるNLP研究の進展について概説する。
Marathiと、研究コミュニティが利用できる最先端のリソースとツールに焦点を当てている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Marathi is one of the most widely used languages in the world. One might expect that the latest advances in NLP research in languages like Enlighs reach such a large community. However, NLP advancements in English didn't immediately reach Indian languages like Marathi. There were several reasons for this. They included diversity of scripts used, lack of (publicly available) resources like tokenization strategies, high quality datasets \& benchmarks, and evaluation metrics. In addition to this, the morphologically rich nature of Marathi, made NLP tasks challenging. Advances in Neural Network (NN) based models and tools since the early 2000s helped improve this situation and make NLP research more accessible. In the past 10 years, significant efforts were made to improve language resources for all 22 scheduled languages of India. This paper presents a broad overview of evolution of NLP research in Indic languages with a focus on Marathi and state-of-the-art resources and tools available to the research community. It also provides an overview of tools \& techniques associated with Marathi NLP tasks.
- Abstract(参考訳): マラティ語は世界で最も広く使われている言語の一つである。
Enlighsのような言語におけるNLP研究の最新の進歩が、そのような大きなコミュニティに到達していると期待する人もいるかもしれない。
しかし、英語におけるNLPの進歩はマラティ語のようなインドの言語にすぐには届かなかった。
これにはいくつかの理由があった。
その中には、使用するスクリプトの多様性、トークン化戦略のような(一般に利用可能な)リソースの欠如、高品質なデータセットとベンチマーク、評価メトリクスが含まれていた。
これに加えて、マラタイの形態学的に豊かな性質はNLPの課題を困難にさせた。
2000年代初頭からニューラルネットワーク(NN)ベースのモデルとツールの進歩は、この状況を改善し、NLP研究をよりアクセスしやすいものにした。
過去10年間で、インドの22の計画言語すべてにおいて、言語資源を改善するための重要な努力がなされた。
本稿では,インド語におけるNLP研究の進展を概観し,マラタイ語と研究コミュニティが利用できる最先端の資源とツールに着目した。
Marathi NLPタスクに関連するツールとテクニックの概要も提供する。
関連論文リスト
- Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - Decoding the Diversity: A Review of the Indic AI Research Landscape [0.7864304771129751]
インド、パキスタン、バングラデシュ、スリランカ、ネパール、ブータンなどインド亜大陸で話されている言語である。
本稿では,Indic言語における大規模言語モデル(LLM)研究の方向性について概観する。
論文 参考訳(メタデータ) (2024-06-13T19:55:20Z) - DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文 参考訳(メタデータ) (2024-03-16T20:18:36Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Mukhyansh: A Headline Generation Dataset for Indic Languages [4.583536403673757]
Mukhyanshは、インド語の見出し生成に適した、広範囲にわたる多言語データセットである。
ムハーンシュ語は3億3900万以上の記事の見出しから成り、8つの著名なインドの言語にまたがっている。
Mukhyanshは、他のすべてのモデルより優れており、平均ROUGE-Lスコアは8言語すべてで31.43である。
論文 参考訳(メタデータ) (2023-11-29T15:49:24Z) - mahaNLP: A Marathi Natural Language Processing Library [0.4499833362998489]
本稿では,オープンソースの自然言語処理(NLP)ライブラリであるmahaNLPについて述べる。
NLPの分野では、低リソースのインドの言語であるMarathiのサポートを強化することを目指している。
論文 参考訳(メタデータ) (2023-11-05T06:59:59Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local
Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。
インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。
インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文 参考訳(メタデータ) (2022-05-31T17:03:50Z) - L3Cube-MahaNLP: Marathi Natural Language Processing Datasets, Models,
and Library [1.14219428942199]
インドで3番目に人気のある言語であるにもかかわらず、マラタイ語は有用なNLP資源を欠いている。
L3Cube-MahaNLPでは,マラウイの自然言語処理のためのリソースとライブラリの構築を目標としている。
我々は、感情分析、名前付きエンティティ認識、ヘイトスピーチ検出などの教師付きタスクのためのデータセットとトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-05-29T17:51:00Z) - "A Passage to India": Pre-trained Word Embeddings for Indian Languages [30.607474624873014]
既存のアプローチを使って、14のインドの言語に複数の単語を埋め込みます。
これらすべての言語への組み込みを単一のリポジトリに配置します。
8つの異なるアプローチを使って、合計436のモデルをリリースします。
論文 参考訳(メタデータ) (2021-12-27T17:31:04Z) - SIGMORPHON 2020 Shared Task 0: Typologically Diverse Morphological
Inflection [81.85463892070085]
形態的回帰に関するSIGMORPHON 2020の課題は、型的に異なる言語にまたがるシステムの一般化能力を調査することを目的としている。
システムは45言語と5つの言語ファミリーのデータを使用して開発され、追加の45言語と10の言語ファミリー(合計13言語)のデータで微調整され、90言語すべてで評価された。
論文 参考訳(メタデータ) (2020-06-20T13:24:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。