Fugu-MT 論文翻訳(概要): Experimental Evaluation of Deep Learning models for Marathi Text Classification

論文の概要: Experimental Evaluation of Deep Learning models for Marathi Text Classification

arxiv url: http://arxiv.org/abs/2101.04899v2
Date: Thu, 14 Jan 2021 13:08:27 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-30 08:07:42.395949
Title: Experimental Evaluation of Deep Learning models for Marathi Text Classification
Title（参考訳）: Marathiテキスト分類のためのディープラーニングモデルの実験的評価
Authors: Atharva Kulkarni, Meet Mandhane, Manali Likhitkar, Gayatri Kshirsagar, Jayashree Jagdale, Raviraj Joshi
Abstract要約: CNN, LSTM, ULMFiT, BERT ベースのモデルを, 2つの公開 Marathi テキスト分類データセットで評価する。 CNNとLSTMに基づく基本単層モデルとFastTextの埋め込みは、利用可能なデータセット上でBERTベースのモデルと同等に動作することを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The Marathi language is one of the prominent languages used in India. It is predominantly spoken by the people of Maharashtra. Over the past decade, the usage of language on online platforms has tremendously increased. However, research on Natural Language Processing (NLP) approaches for Marathi text has not received much attention. Marathi is a morphologically rich language and uses a variant of the Devanagari script in the written form. This works aims to provide a comprehensive overview of available resources and models for Marathi text classification. We evaluate CNN, LSTM, ULMFiT, and BERT based models on two publicly available Marathi text classification datasets and present a comparative analysis. The pre-trained Marathi fast text word embeddings by Facebook and IndicNLP are used in conjunction with word-based models. We show that basic single layer models based on CNN and LSTM coupled with FastText embeddings perform on par with the BERT based models on the available datasets. We hope our paper aids focused research and experiments in the area of Marathi NLP.
Abstract（参考訳）: マラーティー語(marathi language)は、インドで使われている言語の一つ。主にマハラシュトラ人によって話されている。過去10年間で、オンラインプラットフォームでの言語の使用は大幅に増加した。しかし,マラタイ語テキストに対する自然言語処理(NLP)手法の研究はあまり注目されていない。マラティー語は形態学的に豊かな言語であり、デヴァナガリ文字の変種を書体で用いている。この作業は、Marathiテキスト分類の利用可能なリソースとモデルに関する包括的な概要を提供することを目的としている。 CNN, LSTM, ULMFiT, BERTをベースとした2つのテキスト分類データセットの評価を行い, 比較分析を行った。 FacebookとIndicNLPによる事前訓練されたマラタイの高速テキスト単語埋め込みは、単語ベースモデルと組み合わせて使用される。 CNNとLSTMに基づく基本単層モデルとFastTextの埋め込みは、利用可能なデータセット上でBERTベースのモデルと同等に動作することを示す。我々は,マラティアNLPの領域における研究と実験に焦点を当てた論文を期待する。

関連論文リスト

MahaParaphrase: A Marathi Paraphrase Detection Corpus and BERT-based Models [6.841396630034347]
インデックス言語は、その豊富な形態的および構文的バリエーション、多様なスクリプト、注釈付きデータの限られた可用性のために、自然言語処理において複雑である。本研究では,Malathiのための高品質なパラフレーズコーパスであるL3Cube-MahaParaphraseデータセットについて述べる。また、これらのデータセット上で、標準変換器ベースBERTモデルの結果を示す。
論文参考訳（メタデータ） (2025-08-24T16:48:58Z)
L3Cube-MahaSum: A Comprehensive Dataset and BART Models for Abstractive Text Summarization in Marathi [0.4194295877935868]
本稿では,マラタイにおける多種多様なニュース記事の大規模コレクションであるMahaSUMデータセットについて述べる。データセットは、広範囲のオンラインニュースソースから記事を取り除き、抽象的な要約を手作業で検証することで作成されました。我々は、MahaSUMデータセットを使用して、Indic言語用に調整されたBARTモデルの変種であるIndicBARTモデルをトレーニングする。
論文参考訳（メタデータ） (2024-10-11T18:37:37Z)
Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文参考訳（メタデータ） (2024-08-01T04:56:13Z)
CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。 COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文参考訳（メタデータ） (2024-06-16T16:10:51Z)
The First Swahili Language Scene Text Detection and Recognition Dataset [55.83178123785643]
低リソース言語、特にスワヒリ語には大きなギャップがある。スワヒリ語は東アフリカ諸国で広く話されているが、依然としてシーンテキスト認識において未発見言語である。本研究では,スワヒリシーンのテキスト画像の包括的データセットを提案し,異なるシーンのテキスト検出および認識モデルに基づくデータセットの評価を行う。
論文参考訳（メタデータ） (2024-05-19T03:55:02Z)
TransMI: A Framework to Create Strong Baselines from Multilingual Pretrained Language Models for Transliterated Data [50.40191599304911]
そこで我々は,Transliterate Transliteration-Merge (TransMI)を提案する。結果は、モデルやタスクによって異なるが、3%から34%の改善が一貫したことを示している。
論文参考訳（メタデータ） (2024-05-16T09:08:09Z)
SemRel2024: A Collection of Semantic Textual Relatedness Datasets for 13 Languages [44.017657230247934]
textitSemRelは13言語にまたがるネイティブスピーカーによって注釈付けされた新しいセマンティック関連データセットである。これらの言語は5つの異なる言語族の出身であり、主にアフリカとアジアで話されている。 SemRelデータセットの各インスタンスは、2つの文間の意味的テキスト関連性の度合いを表すスコアに関連付けられた文対である。
論文参考訳（メタデータ） (2024-02-13T18:04:53Z)
On the importance of Data Scale in Pretraining Arabic Language Models [46.431706010614334]
アラビア事前訓練言語モデル(PLM)におけるデータの役割に関する総合的研究を行う。我々は、大規模で高品質なアラビアコーパスを用いて、最先端のアラビアPLMの性能を再評価する。我々の分析は、データの事前学習がパフォーマンスの主要な要因であり、他の要因を超えていることを強く示唆している。
論文参考訳（メタデータ） (2024-01-15T15:11:15Z)
Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文参考訳（メタデータ） (2024-01-11T03:04:38Z)
NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文参考訳（メタデータ） (2023-09-19T14:42:33Z)
L3Cube-MahaNLP: Marathi Natural Language Processing Datasets, Models, and Library [1.14219428942199]
インドで3番目に人気のある言語であるにもかかわらず、マラタイ語は有用なNLP資源を欠いている。 L3Cube-MahaNLPでは,マラウイの自然言語処理のためのリソースとライブラリの構築を目標としている。我々は、感情分析、名前付きエンティティ認識、ヘイトスピーチ検出などの教師付きタスクのためのデータセットとトランスフォーマーモデルを提案する。
論文参考訳（メタデータ） (2022-05-29T17:51:00Z)
Mono vs Multilingual BERT for Hate Speech Detection and Text Classification: A Case Study in Marathi [0.966840768820136]
マラーティー語に焦点をあて、ヘイトスピーチの検出、感情分析、マラティー語における単純なテキスト分類のためのデータセットのモデルを評価する。我々は,mBERT,indicBERT,xlm-RoBERTaなどの標準多言語モデルを用い,MahaBERT,MahaALBERT,MahaRoBERTaと比較した。単言語MahaBERTをベースとしたモデルでは,多言語からの文の埋め込みに比べて表現が豊富であることを示す。
論文参考訳（メタデータ） (2022-04-19T05:07:58Z)
Hate and Offensive Speech Detection in Hindi and Marathi [0.0]
それでもヘイトと攻撃的な音声検出は、データの入手が不十分なため、課題に直面している。本研究では,ヒンディー語文とマラタイ語文のヘイトと攻撃的な音声検出について考察する。 CNNやLSTM,多言語BERT,IndicBERT,モノリンガルRoBERTaといったBERTのバリエーションなど,さまざまなディープラーニングアーキテクチャについて検討する。我々は,変換器をベースとしたモデルが,FastText埋め込みとともに基本モデルでも最高の性能を発揮することを示す。
論文参考訳（メタデータ） (2021-10-23T11:57:36Z)
Learning Contextualised Cross-lingual Word Embeddings and Alignments for Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文参考訳（メタデータ） (2020-10-27T22:24:01Z)
Deep Learning for Hindi Text Classification: A Comparison [6.8629257716723]
デヴァナガリ文字で書かれた形態的に豊かで低資源のヒンディー語を分類する研究は、大きなラベル付きコーパスがないために限られている。本研究では,CNN,LSTM,注意に基づくモデル評価のために,英文データセットの翻訳版を用いた。また,本論文は,一般的なテキスト分類手法のチュートリアルとしても機能する。
論文参考訳（メタデータ） (2020-01-19T09:29:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。