論文の概要: L3Cube-MahaSent-MD: A Multi-domain Marathi Sentiment Analysis Dataset
and Transformer Models
- arxiv url: http://arxiv.org/abs/2306.13888v1
- Date: Sat, 24 Jun 2023 07:27:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 18:29:43.524244
- Title: L3Cube-MahaSent-MD: A Multi-domain Marathi Sentiment Analysis Dataset
and Transformer Models
- Title(参考訳): l3cube-mahasent-md:マルチドメインマラーティー感情分析データセットとトランスフォーマーモデル
- Authors: Aabha Pingle, Aditya Vyawahare, Isha Joshi, Rahul Tangsali, Raviraj
Joshi
- Abstract要約: MahaSent-MDは、Indicの感情環境における最初の総合的なマルチドメイン感情分析データセットである。
データセットは,3つの異なる感情 – 肯定的,否定的,中立的 – をカバーする,約6万件のタグ付けされたサンプルで構成されている。
これらのデータセット上で単言語モデルと多言語BERTモデルを微調整し、MahaBERTモデルで最良の精度を報告する。
- 参考スコア(独自算出の注目度): 1.5749416770494706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The exploration of sentiment analysis in low-resource languages, such as
Marathi, has been limited due to the availability of suitable datasets. In this
work, we present L3Cube-MahaSent-MD, a multi-domain Marathi sentiment analysis
dataset, with four different domains - movie reviews, general tweets, TV show
subtitles, and political tweets. The dataset consists of around 60,000 manually
tagged samples covering 3 distinct sentiments - positive, negative, and
neutral. We create a sub-dataset for each domain comprising 15k samples. The
MahaSent-MD is the first comprehensive multi-domain sentiment analysis dataset
within the Indic sentiment landscape. We fine-tune different monolingual and
multilingual BERT models on these datasets and report the best accuracy with
the MahaBERT model. We also present an extensive in-domain and cross-domain
analysis thus highlighting the need for low-resource multi-domain datasets. The
data and models are available at https://github.com/l3cube-pune/MarathiNLP .
- Abstract(参考訳): Marathiのような低リソース言語における感情分析の探索は、適切なデータセットが利用できるため制限されている。
本研究では,映画レビュー,一般ツイート,テレビ番組サブタイトル,政治ツイートの4つのドメインからなるマルチドメインマラーティー感情分析データセットl3cube-mahasent-mdを提案する。
データセットは約60,000の手動タグ付きサンプルで構成され、ポジティブ、ネガティブ、中立の3つの異なる感情をカバーしている。
15kのサンプルを含む各ドメインのサブデータセットを作成します。
mahasent-mdは、indic sentiment landscapeにおける最初の総合的マルチドメイン感情分析データセットである。
これらのデータセット上で単言語モデルと多言語BERTモデルを微調整し、MahaBERTモデルで最良の精度を報告する。
また、広範囲なドメイン内およびクロスドメイン分析を行い、低リソースのマルチドメインデータセットの必要性を強調する。
データとモデルはhttps://github.com/l3cube-pune/marathinlpで入手できる。
関連論文リスト
- On the Impact of Cross-Domain Data on German Language Models [20.758967185444416]
高品質なデータを含むことを目的とした別のデータセットとともに、5つのドメインのテキストからなるドイツのデータセットを提案する。
両方のデータセット上で122Mから750Mパラメータの一連のモデルをトレーニングすることにより、複数の下流タスクに関する包括的なベンチマークを行う。
この結果から、クロスドメインデータセットでトレーニングされたモデルは、品質データだけでトレーニングされたモデルよりも優れており、前回の最先端データよりも最大4.45%の改善が達成された。
論文 参考訳(メタデータ) (2023-10-11T09:09:55Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Measuring Your ASTE Models in The Wild: A Diversified Multi-domain
Dataset For Aspect Sentiment Triplet Extraction [27.004776842335136]
DMASTEと呼ばれる新しいデータセットを導入し、実際のシナリオに適合するように手動で注釈付けします。
データセットには、さまざまな長さ、多様な表現、より多くのアスペクトタイプ、既存のデータセットよりも多くのドメインが含まれている。
論文 参考訳(メタデータ) (2023-05-27T11:21:32Z) - NaSGEC: a Multi-Domain Chinese Grammatical Error Correction Dataset from
Native Speaker Texts [51.64770549988806]
複数のドメインからのネイティブ話者テキストに対する中国語文法誤り訂正(CGEC)の研究を容易にする新しいデータセットであるNaSGECを紹介する。
対象ドメインを広げるために,3つの母国ドメイン,すなわちソーシャルメディア,科学文献,試験から12,500の文に対する複数の参照を注釈付けする。
我々は,最先端CGECモデルと異なるトレーニングデータを用いて,NaSGECのベンチマーク結果を示す。
論文 参考訳(メタデータ) (2023-05-25T13:05:52Z) - A Two-Stage Framework with Self-Supervised Distillation For Cross-Domain
Text Classification [63.338588280577106]
クロスドメインテキスト分類は、ラベル付きデータを持たないターゲットドメインにモデルを適応させることを目的としている。
クロスドメインテキスト分類のための2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-18T06:21:40Z) - Mono vs Multilingual BERT for Hate Speech Detection and Text
Classification: A Case Study in Marathi [0.966840768820136]
マラーティー語に焦点をあて、ヘイトスピーチの検出、感情分析、マラティー語における単純なテキスト分類のためのデータセットのモデルを評価する。
我々は,mBERT,indicBERT,xlm-RoBERTaなどの標準多言語モデルを用い,MahaBERT,MahaALBERT,MahaRoBERTaと比較した。
単言語MahaBERTをベースとしたモデルでは,多言語からの文の埋め込みに比べて表現が豊富であることを示す。
論文 参考訳(メタデータ) (2022-04-19T05:07:58Z) - LoveDA: A Remote Sensing Land-Cover Dataset for Domain Adaptive Semantic
Segmentation [7.629717457706323]
LoveDAデータセットには3つの都市から166個の注釈付きオブジェクトを持つ5987個のHSRイメージが含まれている。
LoveDAデータセットは、土地被覆セマンティックセグメンテーションと教師なしドメイン適応(UDA)タスクの両方に適している。
論文 参考訳(メタデータ) (2021-10-17T06:12:48Z) - Inferring Latent Domains for Unsupervised Deep Domain Adaptation [54.963823285456925]
Unsupervised Domain Adaptation (UDA)は、ラベル付きデータが利用できないターゲットドメインでモデルを学習する問題を指す。
本稿では,視覚データセット中の潜在ドメインを自動的に発見することにより,udaの問題に対処する新しい深層アーキテクチャを提案する。
提案手法を公開ベンチマークで評価し,最先端のドメイン適応手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-25T14:33:33Z) - L3CubeMahaSent: A Marathi Tweet-based Sentiment Analysis Dataset [0.0]
本稿では,Marathi Sentiment Analysis データセットである L3MahaSent について述べる。
様々なマハラシュトリア人格のtwitterアカウントから抽出されたツイートを用いて収集される。
私たちのデータセットは3つの広いクラスvizに分類される16,000の異なるツイートで構成されています。
正、負、中立。
論文 参考訳(メタデータ) (2021-03-21T14:22:13Z) - FDMT: A Benchmark Dataset for Fine-grained Domain Adaptation in Machine
Translation [53.87731008029645]
機械翻訳(FDMT)における実世界のきめ細かいドメイン適応タスクを提案する。
FDMTデータセットは、自動運転車、AI教育、リアルタイムネットワーク、スマートフォンの4つのサブドメインで構成されている。
この新しい設定で定量的な実験と深い分析を行い、きめ細かいドメイン適応タスクをベンチマークします。
論文 参考訳(メタデータ) (2020-12-31T17:15:09Z) - Cross-Domain Document Object Detection: Benchmark Suite and Method [71.4339949510586]
文書オブジェクト検出(DOD)は、インテリジェントな文書編集や理解といった下流タスクに不可欠である。
我々は、ソースドメインからのラベル付きデータとターゲットドメインからのラベルなしデータのみを用いて、ターゲットドメインの検出器を学習することを目的として、クロスドメインDODを調査した。
各データセットに対して、ページイメージ、バウンディングボックスアノテーション、PDFファイル、PDFファイルから抽出されたレンダリング層を提供する。
論文 参考訳(メタデータ) (2020-03-30T03:04:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。