論文の概要: Anubhuti -- An annotated dataset for emotional analysis of Bengali short
stories
- arxiv url: http://arxiv.org/abs/2010.03065v1
- Date: Tue, 6 Oct 2020 22:33:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 07:24:42.377082
- Title: Anubhuti -- An annotated dataset for emotional analysis of Bengali short
stories
- Title(参考訳): Anubhuti -- ベンガルの短編小説の感情分析のための注釈付きデータセット
- Authors: Aditya Pal and Bhaskar Karn
- Abstract要約: アヌブティはベンガルの短編小説の著者が表現した感情を分析するための最初の、そして最大のテキストコーパスである。
本稿では,データ収集手法,手作業によるアノテーション処理,そして結果として生じるハイアノテータ間の合意について説明する。
我々は、ベースライン機械学習と感情分類のためのディープラーニングモデルを用いて、データセットの性能を検証した。
- 参考スコア(独自算出の注目度): 2.3424047967193826
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Thousands of short stories and articles are being written in many different
languages all around the world today. Bengali, or Bangla, is the second highest
spoken language in India after Hindi and is the national language of the
country of Bangladesh. This work reports in detail the creation of Anubhuti --
the first and largest text corpus for analyzing emotions expressed by writers
of Bengali short stories. We explain the data collection methods, the manual
annotation process and the resulting high inter-annotator agreement of the
dataset due to the linguistic expertise of the annotators and the clear
methodology of labelling followed. We also address some of the challenges faced
in the collection of raw data and annotation process of a low resource language
like Bengali. We have verified the performance of our dataset with baseline
Machine Learning as well as a Deep Learning model for emotion classification
and have found that these standard models have a high accuracy and relevant
feature selection on Anubhuti. In addition, we also explain how this dataset
can be of interest to linguists and data analysts to study the flow of emotions
as expressed by writers of Bengali literature.
- Abstract(参考訳): 何千もの短編小説や記事は今日、世界中の様々な言語で書かれています。
バングラ語(バングラ語: Bengali)はヒンディー語に次いでインドで2番目に高い言語であり、バングラデシュの国語である。
本研究は、ベンガルの短編作家が表現した感情を分析する最初のテキストコーパスであるanubhutiの作成を詳細に報告している。
本稿では,アノテーションの言語的専門知識とラベリングの明確な方法論により,データ収集手法,手動アノテーション処理,結果として得られるアノテーション間合意の高まりについて述べる。
また、Bengaliのような低リソース言語で生データやアノテーションの収集に直面する課題にも対処しています。
我々は、ベースライン機械学習と感情分類のためのディープラーニングモデルを用いて、データセットのパフォーマンスを検証し、これらの標準モデルがanubhuti上で高い精度と関連する特徴選択を持っていることを見出した。
また、このデータセットが言語学者やデータ分析者にとって、ベンガル文学の作家が表現する感情の流れを研究する上で、どのように興味を持つのかについても説明する。
関連論文リスト
- L3Cube-MahaSum: A Comprehensive Dataset and BART Models for Abstractive Text Summarization in Marathi [0.4194295877935868]
本稿では,マラタイにおける多種多様なニュース記事の大規模コレクションであるMahaSUMデータセットについて述べる。
データセットは、広範囲のオンラインニュースソースから記事を取り除き、抽象的な要約を手作業で検証することで作成されました。
我々は、MahaSUMデータセットを使用して、Indic言語用に調整されたBARTモデルの変種であるIndicBARTモデルをトレーニングする。
論文 参考訳(メタデータ) (2024-10-11T18:37:37Z) - Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [139.69207791947738]
ドルマ (Dolma) は、ウェブコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多用した3トリルの英語コーパスである。
我々はDolmaの設計原則、その構築の詳細、内容の要約を含む、Dolmaを文書化します。
我々は、重要なデータキュレーションの実践について学んだことを共有するために、Dolmaの中間状態の分析と実験結果を示す。
論文 参考訳(メタデータ) (2024-01-31T20:29:50Z) - Mukhyansh: A Headline Generation Dataset for Indic Languages [4.583536403673757]
Mukhyanshは、インド語の見出し生成に適した、広範囲にわたる多言語データセットである。
ムハーンシュ語は3億3900万以上の記事の見出しから成り、8つの著名なインドの言語にまたがっている。
Mukhyanshは、他のすべてのモデルより優れており、平均ROUGE-Lスコアは8言語すべてで31.43である。
論文 参考訳(メタデータ) (2023-11-29T15:49:24Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Challenge Dataset of Cognates and False Friend Pairs from Indian
Languages [54.6340870873525]
コニャートは異なる言語で同じテキストの複数の変種に存在する。
本稿では,12言語を対象とした2つのコグネートデータセットの作成について述べる。
論文 参考訳(メタデータ) (2021-12-17T14:23:43Z) - Cross-lingual Offensive Language Identification for Low Resource
Languages: The Case of Marathi [2.4737119633827174]
MOLDはMarathiのためにコンパイルされた最初のデータセットであり、低リソースのインド・アーリア語の研究のための新しいドメインを開設した。
このデータセットに関するいくつかの機械学習実験の結果は、ゼロショートや最先端の言語間変換器に関する他のトランスファーラーニング実験を含む。
論文 参考訳(メタデータ) (2021-09-08T11:29:44Z) - HinFlair: pre-trained contextual string embeddings for pos tagging and
text classification in the Hindi language [0.0]
HinFlairは、巨大な単言語Hindiコーパスで事前訓練された言語表現モデル(コンテキスト文字列埋め込み)である。
結果は、HinFlairが、テキスト分類やposタグ付けといった下流タスクのために、既存の最先端の公開トレーニング済みの埋め込みよりも優れていることを示している。
論文 参考訳(メタデータ) (2021-01-18T09:23:35Z) - Sentiment analysis in Bengali via transfer learning using multi-lingual
BERT [0.9883261192383611]
本稿では,ベンガルで手動でタグ付けされた2クラスと3クラスのSAデータセットを提示する。
また、関連する拡張を伴う多言語BERTモデルが、転送学習のアプローチによって訓練可能であることも実証した。
この深層学習モデルは,現在最先端の68%と比較して,2階級の感情分類において71%の精度を達成している。
論文 参考訳(メタデータ) (2020-12-03T10:21:11Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。