論文の概要: EmoBench-UA: A Benchmark Dataset for Emotion Detection in Ukrainian
- arxiv url: http://arxiv.org/abs/2505.23297v1
- Date: Thu, 29 May 2025 09:49:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.797467
- Title: EmoBench-UA: A Benchmark Dataset for Emotion Detection in Ukrainian
- Title(参考訳): EmoBench-UA:ウクライナにおける感情検出のためのベンチマークデータセット
- Authors: Daryna Dementieva, Nikolay Babakov, Alexander Fraser,
- Abstract要約: EmoBench-UAはウクライナのテキストで感情を検出するための最初の注釈付きデータセットである。
その結果,ウクライナ語のような非主流言語における感情分類の課題が浮き彫りになった。
- 参考スコア(独自算出の注目度): 60.61343989805093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Ukrainian NLP has seen progress in many texts processing tasks, emotion classification remains an underexplored area with no publicly available benchmark to date. In this work, we introduce EmoBench-UA, the first annotated dataset for emotion detection in Ukrainian texts. Our annotation schema is adapted from the previous English-centric works on emotion detection (Mohammad et al., 2018; Mohammad, 2022) guidelines. The dataset was created through crowdsourcing using the Toloka.ai platform ensuring high-quality of the annotation process. Then, we evaluate a range of approaches on the collected dataset, starting from linguistic-based baselines, synthetic data translated from English, to large language models (LLMs). Our findings highlight the challenges of emotion classification in non-mainstream languages like Ukrainian and emphasize the need for further development of Ukrainian-specific models and training resources.
- Abstract(参考訳): ウクライナのNLPは多くのテキスト処理タスクで進歩しているのに対し、感情分類は未だ未調査の領域であり、現在までベンチマークが公開されていない。
本研究では,ウクライナ語テキストにおける感情検出のための最初の注釈付きデータセットであるEmoBench-UAを紹介する。
我々のアノテーションスキーマは、以前の英語中心の感情検出(Mohammad et al , 2018; Mohammad, 2022)ガイドラインに適合している。
データセットは、Toloka.aiプラットフォームを使用してクラウドソーシングによって作成され、アノテーションプロセスの高品質が保証された。
そこで我々は,言語ベースライン,英語から翻訳された合成データから,大規模言語モデル(LLM)まで,収集したデータセットに対する様々なアプローチを評価する。
本研究は、ウクライナ語のような非主流言語における感情分類の課題を強調し、ウクライナ固有のモデルとトレーニングリソースのさらなる開発の必要性を強調した。
関連論文リスト
- BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages [93.92804151830744]
BRIGHTERは、28の言語で複数ラベル付き、感情アノテートされたデータセットの集合である。
データ収集とアノテーションプロセスに関する課題を強調します。
BRIGHTERデータセットは、テキストベースの感情認識のギャップに対処するための重要なステップであることを示す。
論文 参考訳(メタデータ) (2025-02-17T15:39:50Z) - MASIVE: Open-Ended Affective State Identification in English and Spanish [10.41502827362741]
本研究は,人間が感情経験を説明するために使用する言葉を含む,事実上拘束力のないテクスタフェクティブな状態にまで範囲を広げる。
私たちは、英語とスペイン語でReddit投稿のデータセットであるMASIVEを収集し、公開しています。
このタスクでは、より小さな微調整された多言語モデルの方が、地域固有のスペイン感情状態においても、ずっと大きなLLMより優れていることが分かる。
論文 参考訳(メタデータ) (2024-07-16T21:43:47Z) - Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering [50.52792174648067]
このイニシアチブは、テキストと視覚的理解のギャップを埋めようとしている。
そこで本研究では,1000以上の自然シーン画像からなるマルチタスクUrduシーンテキストデータセットを提案する。
テキストインスタンスの細かいアノテーションを提供し、以前のデータセットの制限に対処します。
論文 参考訳(メタデータ) (2024-05-21T06:48:26Z) - SER_AMPEL: a multi-source dataset for speech emotion recognition of
Italian older adults [58.49386651361823]
SER_AMPELは、音声感情認識のためのマルチソースデータセットである。
イタリア人の高齢者の場合、音声による感情認識の基準を提供する目的で収集される。
このようなデータセットの必要性の証拠は、技術の現状の分析から生まれる。
論文 参考訳(メタデータ) (2023-11-24T13:47:25Z) - When a Language Question Is at Stake. A Revisited Approach to Label
Sensitive Content [0.0]
記事では、ロシアとウクライナの戦争を取り上げたウクライナのツイートの例について、疑似ラベル付き機密データのアプローチを再検討する。
得られたデータを統計的に解析し、擬似ラベリングに使用するモデルの評価を行い、さらにそのコーパスの活用方法についてのガイドラインを定めている。
論文 参考訳(メタデータ) (2023-11-17T13:35:10Z) - Leveraging Language Identification to Enhance Code-Mixed Text
Classification [0.7340017786387767]
既存のディープラーニングモデルは、コード混合テキストの暗黙の言語情報を活用できない。
本研究の目的は,低リソースのCode-Mixed Hindi- Englishデータセット上でのBERTモデルの性能向上である。
論文 参考訳(メタデータ) (2023-06-08T06:43:10Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - Methods for Detoxification of Texts for the Russian Language [55.337471467610094]
我々は、攻撃的言語と戦うために、ロシア語のテキストを自動で解毒する研究を初めて紹介する。
我々は、局所的な修正を行う教師なしアプローチと、事前訓練された言語GPT-2モデルに基づく教師なしアプローチの2種類のモデルをテストする。
以上の結果から, 改良の余地はあるものの, 脱毒に有効であることが明らかとなった。
論文 参考訳(メタデータ) (2021-05-19T10:37:44Z) - XED: A Multilingual Dataset for Sentiment Analysis and Emotion Detection [0.42056926734482064]
データセットは、人間の注釈付きフィンランド語(25k)と英語(30k)からなる
我々は、Plutchikのコア感情を使って、中立性を加えたデータセットに注釈を付け、マルチラベルのマルチクラスデータセットを作成します。
データセットは言語固有のBERTモデルとSVMを使用して慎重に評価され、XEDが他の類似したデータセットと同等に動作することを示す。
論文 参考訳(メタデータ) (2020-11-03T10:43:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。