Fugu-MT 論文翻訳(概要): L3Cube-MahaSent-MD: A Multi-domain Marathi Sentiment Analysis Dataset and Transformer Models

論文の概要: L3Cube-MahaSent-MD: A Multi-domain Marathi Sentiment Analysis Dataset and Transformer Models

arxiv url: http://arxiv.org/abs/2306.13888v1
Date: Sat, 24 Jun 2023 07:27:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-27 18:29:43.524244
Title: L3Cube-MahaSent-MD: A Multi-domain Marathi Sentiment Analysis Dataset and Transformer Models
Title（参考訳）: l3cube-mahasent-md:マルチドメインマラーティー感情分析データセットとトランスフォーマーモデル
Authors: Aabha Pingle, Aditya Vyawahare, Isha Joshi, Rahul Tangsali, Raviraj Joshi
Abstract要約: MahaSent-MDは、Indicの感情環境における最初の総合的なマルチドメイン感情分析データセットである。データセットは,3つの異なる感情 – 肯定的,否定的,中立的 – をカバーする,約6万件のタグ付けされたサンプルで構成されている。これらのデータセット上で単言語モデルと多言語BERTモデルを微調整し、MahaBERTモデルで最良の精度を報告する。
参考スコア（独自算出の注目度）: 1.5749416770494706
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The exploration of sentiment analysis in low-resource languages, such as Marathi, has been limited due to the availability of suitable datasets. In this work, we present L3Cube-MahaSent-MD, a multi-domain Marathi sentiment analysis dataset, with four different domains - movie reviews, general tweets, TV show subtitles, and political tweets. The dataset consists of around 60,000 manually tagged samples covering 3 distinct sentiments - positive, negative, and neutral. We create a sub-dataset for each domain comprising 15k samples. The MahaSent-MD is the first comprehensive multi-domain sentiment analysis dataset within the Indic sentiment landscape. We fine-tune different monolingual and multilingual BERT models on these datasets and report the best accuracy with the MahaBERT model. We also present an extensive in-domain and cross-domain analysis thus highlighting the need for low-resource multi-domain datasets. The data and models are available at https://github.com/l3cube-pune/MarathiNLP .
Abstract（参考訳）: Marathiのような低リソース言語における感情分析の探索は、適切なデータセットが利用できるため制限されている。本研究では,映画レビュー,一般ツイート,テレビ番組サブタイトル,政治ツイートの4つのドメインからなるマルチドメインマラーティー感情分析データセットl3cube-mahasent-mdを提案する。データセットは約60,000の手動タグ付きサンプルで構成され、ポジティブ、ネガティブ、中立の3つの異なる感情をカバーしている。 15kのサンプルを含む各ドメインのサブデータセットを作成します。 mahasent-mdは、indic sentiment landscapeにおける最初の総合的マルチドメイン感情分析データセットである。これらのデータセット上で単言語モデルと多言語BERTモデルを微調整し、MahaBERTモデルで最良の精度を報告する。また、広範囲なドメイン内およびクロスドメイン分析を行い、低リソースのマルチドメインデータセットの必要性を強調する。データとモデルはhttps://github.com/l3cube-pune/marathinlpで入手できる。

関連論文リスト

Shiksha: A Technical Domain focused Translation Dataset and Model for Indian Languages [11.540702510360985]
我々は、8つのインドの言語にまたがる280万行以上の英語とインデックスとインデックスの高品質な翻訳ペアを含む並列コーパスを作成します。我々は、このコーパスを用いてNMTモデルを微調整し、評価し、ドメイン内のタスクで利用可能な他のすべてのモデルを超えます。
論文参考訳（メタデータ） (2024-12-12T07:40:55Z)
Large Language Model for Multi-Domain Translation: Benchmarking and Domain CoT Fine-tuning [55.107329995417786]
大規模言語モデル(LLM)は、目覚ましい一般的な理解と生成能力を示している。我々は、25のドイツ語$Leftrightarrow$ Englishと22の中国語$Leftrightarrow$ Englishテストセットを特徴とするマルチドメイン翻訳のベンチマークを確立する。本稿では,LLMの内在的マルチドメインインテリジェンスを活用し,翻訳性能を向上させるためのドメインチェーン・オブ・シント(CoT)ファインチューニング手法を提案する。
論文参考訳（メタデータ） (2024-10-03T16:15:04Z)
InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning [58.7966588457529]
InfiMM-WebMath-40Bは、インターリーブされた画像テキスト文書の高品質なデータセットである。ウェブページは2400万、画像URLは8500万、テキストトークンは400億だ。テキストのみのベンチマークでは,400億トークンしか利用していないにもかかわらず,データセットは1.3Bモデルの性能を大幅に向上させることが示された。私たちのモデルは、MathVerseやWe-Mathといったマルチモーダルな数学ベンチマーク上で、オープンソースモデルの中で新しい最先端のモデルを設定しました。
論文参考訳（メタデータ） (2024-09-19T08:41:21Z)
MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文参考訳（メタデータ） (2024-06-13T17:59:30Z)
3AM: An Ambiguity-Aware Multi-Modal Machine Translation Dataset [90.95948101052073]
英語と中国語で26,000のパラレル文対からなる曖昧性を考慮したMMTデータセットである3AMを導入する。我々のデータセットは、他のMTデータセットよりもあいまいで、キャプションと画像の両方が多種多様であるように設計されています。実験の結果,我々のデータセットでトレーニングしたMTモデルは,他のMTデータセットでトレーニングしたMTモデルよりも視覚情報を活用する能力が高いことがわかった。
論文参考訳（メタデータ） (2024-04-29T04:01:30Z)
L3Cube-MahaNews: News-based Short Text and Long Document Classification Datasets in Marathi [0.4194295877935868]
L3Cube-MahaNewsは,ニュースの見出しや記事に焦点をあてたマラタイ語テキスト分類コーパスである。このコーパスは最大規模のマラーティコーパスであり、1.05L以上の記録を12のカテゴリに分類している。異なる文書の長さに対応するため、MahaNewsは短文、長文、中段落用に特別に設計された3つの教師付きデータセットで構成されている。
論文参考訳（メタデータ） (2024-04-28T15:20:45Z)
Paloma: A Benchmark for Evaluating Language Model Fit [112.481957296585]
言語モデル (LM) の評価では、トレーニングから切り離されたモノリシックなデータに難易度が報告されるのが一般的である。 Paloma(Perplexity Analysis for Language Model Assessment)は、546の英語およびコードドメインに適合するLMを測定するベンチマークである。
論文参考訳（メタデータ） (2023-12-16T19:12:45Z)
Measuring Your ASTE Models in The Wild: A Diversified Multi-domain Dataset For Aspect Sentiment Triplet Extraction [27.004776842335136]
DMASTEと呼ばれる新しいデータセットを導入し、実際のシナリオに適合するように手動で注釈付けします。データセットには、さまざまな長さ、多様な表現、より多くのアスペクトタイプ、既存のデータセットよりも多くのドメインが含まれている。
論文参考訳（メタデータ） (2023-05-27T11:21:32Z)
Mono vs Multilingual BERT for Hate Speech Detection and Text Classification: A Case Study in Marathi [0.966840768820136]
マラーティー語に焦点をあて、ヘイトスピーチの検出、感情分析、マラティー語における単純なテキスト分類のためのデータセットのモデルを評価する。我々は,mBERT,indicBERT,xlm-RoBERTaなどの標準多言語モデルを用い,MahaBERT,MahaALBERT,MahaRoBERTaと比較した。単言語MahaBERTをベースとしたモデルでは,多言語からの文の埋め込みに比べて表現が豊富であることを示す。
論文参考訳（メタデータ） (2022-04-19T05:07:58Z)
LoveDA: A Remote Sensing Land-Cover Dataset for Domain Adaptive Semantic Segmentation [7.629717457706323]
LoveDAデータセットには3つの都市から166個の注釈付きオブジェクトを持つ5987個のHSRイメージが含まれている。 LoveDAデータセットは、土地被覆セマンティックセグメンテーションと教師なしドメイン適応(UDA)タスクの両方に適している。
論文参考訳（メタデータ） (2021-10-17T06:12:48Z)
Inferring Latent Domains for Unsupervised Deep Domain Adaptation [54.963823285456925]
Unsupervised Domain Adaptation (UDA)は、ラベル付きデータが利用できないターゲットドメインでモデルを学習する問題を指す。本稿では,視覚データセット中の潜在ドメインを自動的に発見することにより,udaの問題に対処する新しい深層アーキテクチャを提案する。提案手法を公開ベンチマークで評価し,最先端のドメイン適応手法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-03-25T14:33:33Z)
L3CubeMahaSent: A Marathi Tweet-based Sentiment Analysis Dataset [0.0]
本稿では,Marathi Sentiment Analysis データセットである L3MahaSent について述べる。様々なマハラシュトリア人格のtwitterアカウントから抽出されたツイートを用いて収集される。私たちのデータセットは3つの広いクラスvizに分類される16,000の異なるツイートで構成されています。正、負、中立。
論文参考訳（メタデータ） (2021-03-21T14:22:13Z)
FDMT: A Benchmark Dataset for Fine-grained Domain Adaptation in Machine Translation [53.87731008029645]
機械翻訳(FDMT)における実世界のきめ細かいドメイン適応タスクを提案する。 FDMTデータセットは、自動運転車、AI教育、リアルタイムネットワーク、スマートフォンの4つのサブドメインで構成されている。この新しい設定で定量的な実験と深い分析を行い、きめ細かいドメイン適応タスクをベンチマークします。
論文参考訳（メタデータ） (2020-12-31T17:15:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。