Fugu-MT 論文翻訳(概要): BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages

論文の概要: BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages

arxiv url: http://arxiv.org/abs/2502.11926v2
Date: Mon, 10 Mar 2025 12:20:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-11 15:50:06.296097
Title: BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages
Title（参考訳）: BRIGHTER:28言語を対象とした人手によるテキスト感情認識データセットのギャップを埋める
Authors: Shamsuddeen Hassan Muhammad, Nedjma Ousidhoum, Idris Abdulmumin, Jan Philip Wahle, Terry Ruas, Meriem Beloucif, Christine de Kock, Nirmal Surange, Daniela Teodorescu, Ibrahim Said Ahmad, David Ifeoluwa Adelani, Alham Fikri Aji, Felermino D. M. A. Ali, Ilseyar Alimova, Vladimir Araujo, Nikolay Babakov, Naomi Baes, Ana-Maria Bucur, Andiswa Bukula, Guanqun Cao, Rodrigo Tufino Cardenas, Rendi Chevi, Chiamaka Ijeoma Chukwuneke, Alexandra Ciobotaru, Daryna Dementieva, Murja Sani Gadanya, Robert Geislinger, Bela Gipp, Oumaima Hourrane, Oana Ignat, Falalu Ibrahim Lawan, Rooweither Mabuya, Rahmad Mahendra, Vukosi Marivate, Andrew Piper, Alexander Panchenko, Charles Henrique Porto Ferreira, Vitaly Protasov, Samuel Rutunda, Manish Shrivastava, Aura Cristina Udrea, Lilian Diana Awuor Wanzare, Sophie Wu, Florian Valentin Wunderlich, Hanif Muhammad Zhafran, Tianhui Zhang, Yi Zhou, Saif M. Mohammad,
Abstract要約: BRIGHTER - 28の異なる言語のマルチラベルデータセットのコレクション。データ収集とアノテーションプロセスとこれらのデータセット構築の課題について説明する。 BRIGHTERデータセットは、テキストベースの感情認識のギャップを埋めるためのステップであることを示す。
参考スコア（独自算出の注目度）: 93.92804151830744
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: People worldwide use language in subtle and complex ways to express emotions. While emotion recognition -- an umbrella term for several NLP tasks -- significantly impacts different applications in NLP and other fields, most work in the area is focused on high-resource languages. Therefore, this has led to major disparities in research and proposed solutions, especially for low-resource languages that suffer from the lack of high-quality datasets. In this paper, we present BRIGHTER -- a collection of multilabeled emotion-annotated datasets in 28 different languages. BRIGHTER covers predominantly low-resource languages from Africa, Asia, Eastern Europe, and Latin America, with instances from various domains annotated by fluent speakers. We describe the data collection and annotation processes and the challenges of building these datasets. Then, we report different experimental results for monolingual and crosslingual multi-label emotion identification, as well as intensity-level emotion recognition. We investigate results with and without using LLMs and analyse the large variability in performance across languages and text domains. We show that BRIGHTER datasets are a step towards bridging the gap in text-based emotion recognition and discuss their impact and utility.
Abstract（参考訳）: 世界中の人々は、感情を表現するために微妙で複雑な方法で言語を使用します。感情認識は、いくつかのNLPタスクの包括的用語であり、NLPや他の分野の異なるアプリケーションに大きく影響するが、この分野のほとんどの作業は、高リソース言語に焦点を当てている。そのため、特に高品質なデータセットの欠如に苦しむ低リソース言語では、研究と提案されたソリューションに大きな格差が生じている。本稿では,28言語からなるマルチラベルの感情アノテートデータセットの集合BRIGHTERを提案する。 BRIGHTERはアフリカ、アジア、東ヨーロッパ、ラテンアメリカからの低リソース言語を主にカバーしており、様々なドメインからの例は流線型話者によって注釈付けされている。データ収集とアノテーションプロセスとこれらのデータセット構築の課題について説明する。そこで本研究では,単言語・多言語多言語感情識別と強度レベルの感情認識の異なる実験結果について報告する。 LLMを使用・使用せずに結果を調査し、言語やテキストドメイン間での性能の大きな変動を解析する。 BRIGHTERデータセットは、テキストベースの感情認識のギャップを埋めるステップであり、その影響と有用性について議論する。

関連論文リスト

SemEval-2025 Task 11: Bridging the Gap in Text-Based Emotion Detection [76.18321723846616]
タスクは7つの異なる言語ファミリーから30以上の言語をカバーしている。データインスタンスは6つの感情クラスでマルチラベルされており、感情の強さに注釈を付けた11言語にデータセットが追加されている。参加者は, (a) マルチラベル感情検出, (b) 感情強度スコア検出, (c) 言語間感情検出の3つのトラックでラベルの予測を依頼された。
論文参考訳（メタデータ） (2025-03-10T12:49:31Z)
Akan Cinematic Emotions (ACE): A Multimodal Multi-party Dataset for Emotion Recognition in Movie Dialogues [4.894647740789939]
アカン会話感情データセット(Akan Conversation Emotion dataset)は、アフリカ語における最初のマルチモーダル感情対話データセットである。 385の感情ラベル付き対話と6,162の発話が音声、視覚、テキストのモダリティにわたって含まれている。このデータセットに韻律ラベルがあることは、最初の韻律的に注釈付けされたアフリカの言語データセットにもなった。
論文参考訳（メタデータ） (2025-02-16T03:24:33Z)
Evaluating the Capabilities of Large Language Models for Multi-label Emotion Understanding [20.581470997286146]
EthioEmoは、4つのエチオピア語に対するマルチラベル感情分類データセットである。 SemEval 2018 Task 1から追加の英語マルチラベル感情データセットで広範な実験を行う。その結果,高精度なマルチラベル感情分類は,ハイソース言語においても依然として不十分であることが示唆された。
論文参考訳（メタデータ） (2024-12-17T07:42:39Z)
Human-LLM Collaborative Construction of a Cantonese Emotion Lexicon [1.3074442742310615]
本研究では,低リソース言語であるCantoneseのための感情辞書を開発することを提案する。 LLM(Large Language Models)と人間のアノテータによって提供される感情ラベルを統合することで、既存の言語資源を活用している。感情抽出における感情レキシコンの整合性は、3つの異なる感情テキストデータセットの修正と利用によって評価された。
論文参考訳（メタデータ） (2024-10-15T11:57:34Z)
SCOPE: Sign Language Contextual Processing with Embedding from LLMs [49.5629738637893]
世界中の約7000万人の聴覚障害者が使用する手話は、視覚的および文脈的な情報を伝える視覚言語である。視覚に基づく手話認識(SLR)と翻訳(SLT)の現在の手法は、限られたデータセットの多様性と文脈に関連のある情報の無視により、対話シーンに苦慮している。 SCOPEは、コンテキスト認識型ビジョンベースSLRおよびSLTフレームワークである。
論文参考訳（メタデータ） (2024-09-02T08:56:12Z)
MASIVE: Open-Ended Affective State Identification in English and Spanish [10.41502827362741]
本研究は,人間が感情経験を説明するために使用する言葉を含む,事実上拘束力のないテクスタフェクティブな状態にまで範囲を広げる。私たちは、英語とスペイン語でReddit投稿のデータセットであるMASIVEを収集し、公開しています。このタスクでは、より小さな微調整された多言語モデルの方が、地域固有のスペイン感情状態においても、ずっと大きなLLMより優れていることが分かる。
論文参考訳（メタデータ） (2024-07-16T21:43:47Z)
Decomposed Prompting: Probing Multilingual Linguistic Structure Knowledge in Large Language Models [54.58989938395976]
本稿では,シーケンスラベリングタスクに対する分割プロンプト手法を提案する。提案手法は,38言語を対象としたUniversal Dependencies part-of-speech Taggedについて検証する。
論文参考訳（メタデータ） (2024-02-28T15:15:39Z)
NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文参考訳（メタデータ） (2023-09-19T14:42:33Z)
Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。 Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文参考訳（メタデータ） (2023-05-25T15:30:31Z)
AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文参考訳（メタデータ） (2021-04-17T20:23:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。