論文の概要: ANUBHUTI: A Comprehensive Corpus For Sentiment Analysis In Bangla Regional Languages
- arxiv url: http://arxiv.org/abs/2506.21686v1
- Date: Thu, 26 Jun 2025 18:13:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:22.967113
- Title: ANUBHUTI: A Comprehensive Corpus For Sentiment Analysis In Bangla Regional Languages
- Title(参考訳): AnUBHUTI:バングラ語における感情分析のための総合コーパス
- Authors: Swastika Kundu, Autoshi Ibrahim, Mithila Rahman, Tanvir Ahmed,
- Abstract要約: ANUBHUTIは、低資源バングラ方言における感情分析のためのリソースの重大なギャップを埋める。
このデータセットは、バングラデシュの現代社会の政治的景観を反映して、政治的および宗教的な内容が特徴的である。
データセットは、欠落したデータ、異常、不整合の体系的なチェックによってさらに改善された。
- 参考スコア(独自算出の注目度): 0.5062312533373298
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sentiment analysis for regional dialects of Bangla remains an underexplored area due to linguistic diversity and limited annotated data. This paper introduces ANUBHUTI, a comprehensive dataset consisting of 2000 sentences manually translated from standard Bangla into four major regional dialects Mymensingh, Noakhali, Sylhet, and Chittagong. The dataset predominantly features political and religious content, reflecting the contemporary socio political landscape of Bangladesh, alongside neutral texts to maintain balance. Each sentence is annotated using a dual annotation scheme: multiclass thematic labeling categorizes sentences as Political, Religious, or Neutral, and multilabel emotion annotation assigns one or more emotions from Anger, Contempt, Disgust, Enjoyment, Fear, Sadness, and Surprise. Expert native translators conducted the translation and annotation, with quality assurance performed via Cohens Kappa inter annotator agreement, achieving strong consistency across dialects. The dataset was further refined through systematic checks for missing data, anomalies, and inconsistencies. ANUBHUTI fills a critical gap in resources for sentiment analysis in low resource Bangla dialects, enabling more accurate and context aware natural language processing.
- Abstract(参考訳): バングラ地方方言の知覚分析は、言語的多様性と限定的な注釈付きデータにより、未発見領域として残されている。
本稿では,標準バングラ語からマイメンシン語,ノアハリ語,シルヘット語,チッタゴン語の4方言に翻訳された2000文からなる包括的データセットAnUBHUTIを紹介する。
このデータセットは主に政治的・宗教的な内容が特徴であり、バランスを保つために中立的なテキストとともにバングラデシュの現代社会の政治的景観を反映している。
マルチクラス・セマンティック・ラベリングは、文章を政治、宗教、中立に分類し、マルチラベルの感情のアノテーションは、Anger, Contempt, Disgust, Enjoyment, Fear, Sadness, Supriseから1つ以上の感情を割り当てる。
専門の翻訳家たちは翻訳と注釈を行い、コーエンス・カッパ・インターアノテーター契約を通じて品質保証を行い、方言間で強い一貫性を達成した。
データセットは、欠落したデータ、異常、不整合の体系的なチェックによってさらに改善された。
ANUBHUTIは、低リソースのバングラ方言における感情分析のためのリソースの重大なギャップを埋め、より正確で文脈を意識した自然言語処理を可能にする。
関連論文リスト
- BanTH: A Multi-label Hate Speech Detection Dataset for Transliterated Bangla [0.0]
我々は,37.3kサンプルからなるバングラヘイト音声データセットであるBanTHを紹介する。
サンプルはYouTubeコメントからソースされ、各インスタンスに1つ以上のターゲットグループをラベル付けする。
実験により、さらに事前訓練されたエンコーダが、BanTHデータセット上で最先端のパフォーマンスを実現していることが明らかになった。
論文 参考訳(メタデータ) (2024-10-17T07:15:15Z) - Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - Content-Localization based System for Analyzing Sentiment and Hate
Behaviors in Low-Resource Dialectal Arabic: English to Levantine and Gulf [5.2957928879391]
本稿では,高リソース言語における資源の内容を,低リソースアラビア語方言にローカライズすることを提案する。
我々は、コンテンツローカライゼーションに基づくニューラルマシン翻訳を用いて、レバンタインとガルフの2つの低リソースアラビア語方言に対する感情と憎悪の分類器を開発する。
以上の結果から,同一言語における方言の特異性を考慮し,方言的側面を無視することが,誤解を招く可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-27T15:37:33Z) - BanLemma: A Word Formation Dependent Rule and Dictionary Based Bangla
Lemmatizer [3.1742013359102175]
本稿では, 文法化のための言語規則を提案し, 辞書と組み合わせて, バングラの補題を設計する。
本システムの目的は,ある文中の音声クラスの部分に基づいて,単語を補足することである。
補綴器は、手動で注釈付けされたテストデータセットに対して、トレーニングによってテストすると96.36%の精度を達成する。
論文 参考訳(メタデータ) (2023-11-06T13:02:07Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - SentiGOLD: A Large Bangla Gold Standard Multi-Domain Sentiment Analysis
Dataset and its Evaluation [0.9894420655516565]
センティゴルドはバングラデシュ政府とバングラデシュ言語委員会によって合意された、確立された言語慣習に準拠している。
このデータセットには、オンラインビデオコメント、ソーシャルメディア投稿、ブログ、ニュース、その他のソースからのデータが含まれている。
上位モデルは5つのクラスで0.62(イントラデータセット)のマクロf1スコアを獲得し、ベンチマークを設定し、3つのクラスで0.61(SentNoBのクロスデータセット)を得る。
論文 参考訳(メタデータ) (2023-06-09T12:07:10Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。