論文の概要: BengaliSent140: A Large-Scale Bengali Binary Sentiment Dataset for Hate and Non-Hate Speech Classification
- arxiv url: http://arxiv.org/abs/2601.20129v1
- Date: Tue, 27 Jan 2026 23:47:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.701948
- Title: BengaliSent140: A Large-Scale Bengali Binary Sentiment Dataset for Hate and Non-Hate Speech Classification
- Title(参考訳): BengaliSent140: ヘイトおよび非ヘイト音声分類のための大規模ベンガル二分感データセット
- Authors: Akif Islam, Sujan Kumar Roy, Md. Ekramul Hamid,
- Abstract要約: 既存の7つのベンガルテキストデータセットを統一コーパスに統合して構築した大規模なバイナリ感情データセットであるBengaliSent140を紹介する。
結果として得られたデータセットは、68,548のヘイトと71,244のNot-hateインスタンスを含む、139,792のユニークなテキストサンプルで構成されている。
複数のソースやドメインからのデータを統合することで、BengaliSent140はより広範な言語的および文脈的カバレッジを提供する。
- 参考スコア(独自算出の注目度): 0.1784233255402269
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sentiment analysis for the Bengali language has attracted increasing research interest in recent years. However, progress remains constrained by the scarcity of large-scale and diverse annotated datasets. Although several Bengali sentiment and hate speech datasets are publicly available, most are limited in size or confined to a single domain, such as social media comments. Consequently, these resources are often insufficient for training modern deep learning based models, which require large volumes of heterogeneous data to learn robust and generalizable representations. In this work, we introduce BengaliSent140, a large-scale Bengali binary sentiment dataset constructed by consolidating seven existing Bengali text datasets into a unified corpus. To ensure consistency across sources, heterogeneous annotation schemes are systematically harmonized into a binary sentiment formulation with two classes: Not Hate (0) and Hate (1). The resulting dataset comprises 139,792 unique text samples, including 68,548 hate and 71,244 not-hate instances, yielding a relatively balanced class distribution. By integrating data from multiple sources and domains, BengaliSent140 offers broader linguistic and contextual coverage than existing Bengali sentiment datasets and provides a strong foundation for training and benchmarking deep learning models. Baseline experimental results are also reported to demonstrate the practical usability of the dataset. The dataset is publicly available at https://www.kaggle.com/datasets/akifislam/bengalisent140/
- Abstract(参考訳): ベンガル語に対する感性分析は近年研究の関心が高まっている。
しかし、大規模で多様な注釈付きデータセットの不足により、進歩は依然として制限されている。
いくつかのベンガルの感情とヘイトスピーチデータセットが公開されているが、ほとんどがサイズに制限されているか、ソーシャルメディアコメントのような単一のドメインに限定されている。
したがって、これらのリソースは、堅牢で一般化可能な表現を学習するために大量の異種データを必要とする、現代のディープラーニングベースのモデルのトレーニングには不十分であることが多い。
本研究では,既存のベンガルテキストデータセット7つを統一コーパスに統合して構築した大規模ベンガルバイナリ感情データセットであるBengaliSent140を紹介する。
情報源間の整合性を確保するため、異種アノテーションスキームは2つのクラス、Not Hate (0) と Hate (1) に体系的に調和する。
結果として得られたデータセットは、68,548のヘイトと71,244のNot-hateインスタンスを含む139,792のユニークなテキストサンプルで構成され、相対的にバランスの取れたクラス分布をもたらす。
複数のソースやドメインからのデータを統合することで、BengaliSent140は既存のBengaliの感情データセットよりも幅広い言語的および文脈的カバレッジを提供し、ディープラーニングモデルのトレーニングとベンチマークのための強力な基盤を提供する。
ベースライン実験結果も,データセットの実用性を示すものとして報告されている。
データセットはhttps://www.kaggle.com/datasets/akifislam/bengalisent140/で公開されている。
関連論文リスト
- BNLI: A Linguistically-Refined Bengali Dataset for Natural Language Inference [1.7688536690159165]
既存のベンガルのNLIデータセットには、アノテーションエラー、曖昧な文対、言語多様性の欠如など、いくつかの矛盾がある。
頑健な言語理解と推論モデリングをサポートするために設計されたベンガルNLIデータセットであるBNLIを紹介する。
我々は、多言語およびベンガル固有のモデルを含む最先端のトランスフォーマーベースのアーキテクチャを用いてBNLIをベンチマークし、複雑な意味関係を捉える能力を評価した。
論文 参考訳(メタデータ) (2025-11-11T22:29:14Z) - BnSentMix: A Diverse Bengali-English Code-Mixed Dataset for Sentiment Analysis [0.08246494848934446]
我々はBnSentMixを紹介した。BnSentMixは、Facebook、YouTube、およびeコマースサイトからの4つの感情ラベルを持つ20,000のサンプルからなるコードミックスベンガルの感情分析データセットである。
総合的精度は69.8%、F1スコアは69.1%である。
論文 参考訳(メタデータ) (2024-08-16T18:30:22Z) - Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Factorization of Fact-Checks for Low Resource Indian Languages [44.94080515860928]
FactDRILは、インドの地域言語のための最初の大規模多言語ファクトチェックデータセットです。
本データセットは英語9,058サンプル,ヒンディー語5,155サンプルからなり,残りの8,222サンプルは様々な地域言語に分布する。
このデータセットは貴重なリソースであり、低リソース言語での偽ニュースの拡散と戦う出発点となると期待しています。
論文 参考訳(メタデータ) (2021-02-23T16:47:41Z) - Hate Speech detection in the Bengali language: A dataset and its
baseline evaluation [0.8793721044482612]
本稿では,クラウドソーシングによってタグ付けされ,専門家によって検証された3万のユーザコメントのデータセットを提案する。
コメントはすべてYouTubeとFacebookのコメントセクションから収集され、7つのカテゴリに分類される。
合計50人の注釈家が各コメントに3回注釈を付け、多数決が最終注釈として採決された。
論文 参考訳(メタデータ) (2020-12-17T15:53:54Z) - Sentiment analysis in Bengali via transfer learning using multi-lingual
BERT [0.9883261192383611]
本稿では,ベンガルで手動でタグ付けされた2クラスと3クラスのSAデータセットを提示する。
また、関連する拡張を伴う多言語BERTモデルが、転送学習のアプローチによって訓練可能であることも実証した。
この深層学習モデルは,現在最先端の68%と比較して,2階級の感情分類において71%の精度を達成している。
論文 参考訳(メタデータ) (2020-12-03T10:21:11Z) - BAN-ABSA: An Aspect-Based Sentiment Analysis dataset for Bengali and
it's baseline evaluation [0.8793721044482612]
本稿では,高品質なベンガル語データセットであるBAN-ABSAについて述べる。
データセットは、ベンガルの有名なニュースポータルから収集された9,009のユニークなコメントから、2,619のポジティブ、4,721のネガティブ、1,669の中立データサンプルで構成されている。
論文 参考訳(メタデータ) (2020-12-01T06:09:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。