論文の概要: BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages
- arxiv url: http://arxiv.org/abs/2502.11926v2
- Date: Mon, 10 Mar 2025 12:20:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:42:17.949734
- Title: BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages
- Title(参考訳): BRIGHTER:28言語を対象とした人手によるテキスト感情認識データセットのギャップを埋める
- Authors: Shamsuddeen Hassan Muhammad, Nedjma Ousidhoum, Idris Abdulmumin, Jan Philip Wahle, Terry Ruas, Meriem Beloucif, Christine de Kock, Nirmal Surange, Daniela Teodorescu, Ibrahim Said Ahmad, David Ifeoluwa Adelani, Alham Fikri Aji, Felermino D. M. A. Ali, Ilseyar Alimova, Vladimir Araujo, Nikolay Babakov, Naomi Baes, Ana-Maria Bucur, Andiswa Bukula, Guanqun Cao, Rodrigo Tufino Cardenas, Rendi Chevi, Chiamaka Ijeoma Chukwuneke, Alexandra Ciobotaru, Daryna Dementieva, Murja Sani Gadanya, Robert Geislinger, Bela Gipp, Oumaima Hourrane, Oana Ignat, Falalu Ibrahim Lawan, Rooweither Mabuya, Rahmad Mahendra, Vukosi Marivate, Andrew Piper, Alexander Panchenko, Charles Henrique Porto Ferreira, Vitaly Protasov, Samuel Rutunda, Manish Shrivastava, Aura Cristina Udrea, Lilian Diana Awuor Wanzare, Sophie Wu, Florian Valentin Wunderlich, Hanif Muhammad Zhafran, Tianhui Zhang, Yi Zhou, Saif M. Mohammad,
- Abstract要約: BRIGHTER - 28の異なる言語のマルチラベルデータセットのコレクション。
データ収集とアノテーションプロセスとこれらのデータセット構築の課題について説明する。
BRIGHTERデータセットは、テキストベースの感情認識のギャップを埋めるためのステップであることを示す。
- 参考スコア(独自算出の注目度): 93.92804151830744
- License:
- Abstract: People worldwide use language in subtle and complex ways to express emotions. While emotion recognition -- an umbrella term for several NLP tasks -- significantly impacts different applications in NLP and other fields, most work in the area is focused on high-resource languages. Therefore, this has led to major disparities in research and proposed solutions, especially for low-resource languages that suffer from the lack of high-quality datasets. In this paper, we present BRIGHTER -- a collection of multilabeled emotion-annotated datasets in 28 different languages. BRIGHTER covers predominantly low-resource languages from Africa, Asia, Eastern Europe, and Latin America, with instances from various domains annotated by fluent speakers. We describe the data collection and annotation processes and the challenges of building these datasets. Then, we report different experimental results for monolingual and crosslingual multi-label emotion identification, as well as intensity-level emotion recognition. We investigate results with and without using LLMs and analyse the large variability in performance across languages and text domains. We show that BRIGHTER datasets are a step towards bridging the gap in text-based emotion recognition and discuss their impact and utility.
- Abstract(参考訳): 世界中の人々は、感情を表現するために微妙で複雑な方法で言語を使用します。
感情認識は、いくつかのNLPタスクの包括的用語であり、NLPや他の分野の異なるアプリケーションに大きく影響するが、この分野のほとんどの作業は、高リソース言語に焦点を当てている。
そのため、特に高品質なデータセットの欠如に苦しむ低リソース言語では、研究と提案されたソリューションに大きな格差が生じている。
本稿では,28言語からなるマルチラベルの感情アノテートデータセットの集合BRIGHTERを提案する。
BRIGHTERはアフリカ、アジア、東ヨーロッパ、ラテンアメリカからの低リソース言語を主にカバーしており、様々なドメインからの例は流線型話者によって注釈付けされている。
データ収集とアノテーションプロセスとこれらのデータセット構築の課題について説明する。
そこで本研究では,単言語・多言語多言語感情識別と強度レベルの感情認識の異なる実験結果について報告する。
LLMを使用・使用せずに結果を調査し、言語やテキストドメイン間での性能の大きな変動を解析する。
BRIGHTERデータセットは、テキストベースの感情認識のギャップを埋めるステップであり、その影響と有用性について議論する。
関連論文リスト
- Akan Cinematic Emotions (ACE): A Multimodal Multi-party Dataset for Emotion Recognition in Movie Dialogues [4.894647740789939]
アカン会話感情データセット(Akan Conversation Emotion dataset)は、アフリカ語における最初のマルチモーダル感情対話データセットである。
385の感情ラベル付き対話と6,162の発話が音声、視覚、テキストのモダリティにわたって含まれている。
このデータセットに韻律ラベルがあることは、最初の韻律的に注釈付けされたアフリカの言語データセットにもなった。
論文 参考訳(メタデータ) (2025-02-16T03:24:33Z) - Evaluating the Capabilities of Large Language Models for Multi-label Emotion Understanding [20.581470997286146]
EthioEmoは、4つのエチオピア語に対するマルチラベル感情分類データセットである。
SemEval 2018 Task 1から追加の英語マルチラベル感情データセットで広範な実験を行う。
その結果,高精度なマルチラベル感情分類は,ハイソース言語においても依然として不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-12-17T07:42:39Z) - SCOPE: Sign Language Contextual Processing with Embedding from LLMs [49.5629738637893]
世界中の約7000万人の聴覚障害者が使用する手話は、視覚的および文脈的な情報を伝える視覚言語である。
視覚に基づく手話認識(SLR)と翻訳(SLT)の現在の手法は、限られたデータセットの多様性と文脈に関連のある情報の無視により、対話シーンに苦慮している。
SCOPEは、コンテキスト認識型ビジョンベースSLRおよびSLTフレームワークである。
論文 参考訳(メタデータ) (2024-09-02T08:56:12Z) - MASIVE: Open-Ended Affective State Identification in English and Spanish [10.41502827362741]
本研究は,人間が感情経験を説明するために使用する言葉を含む,事実上拘束力のないテクスタフェクティブな状態にまで範囲を広げる。
私たちは、英語とスペイン語でReddit投稿のデータセットであるMASIVEを収集し、公開しています。
このタスクでは、より小さな微調整された多言語モデルの方が、地域固有のスペイン感情状態においても、ずっと大きなLLMより優れていることが分かる。
論文 参考訳(メタデータ) (2024-07-16T21:43:47Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Presentation and Analysis of a Multimodal Dataset for Grounded Language
Learning [32.28310581819443]
接地的な言語習得は、言語に基づく相互作用が周囲の世界をどのように参照するかを学ぶことを伴う。
実際には、学習に使用されるデータは、実際の人間のインタラクションよりもクリーンで、クリアで、文法的な傾向があります。
本稿では,話し言葉と書き言葉を併用した家庭内共通物体のデータセットについて述べる。
論文 参考訳(メタデータ) (2020-07-29T17:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。