論文の概要: EmoHopeSpeech: An Annotated Dataset of Emotions and Hope Speech in English and Arabic
- arxiv url: http://arxiv.org/abs/2505.11959v2
- Date: Wed, 21 May 2025 06:06:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 13:19:52.318108
- Title: EmoHopeSpeech: An Annotated Dataset of Emotions and Hope Speech in English and Arabic
- Title(参考訳): EmoHopeSpeech: 英語とアラビア語の感情と希望のスピーチの注釈付きデータセット
- Authors: Wajdi Zaghouani, Md. Rafiul Biswas,
- Abstract要約: 本研究では,アラビア語の23,456項目と英語の10,036項目からなるバイリンガルデータセットを提案する。
このデータセットは、感情の強さ、複雑さ、原因を捉える包括的なアノテーションと、希望のスピーチのための詳細な分類とサブカテゴリを提供する。
- 参考スコア(独自算出の注目度): 0.021665899581403608
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This research introduces a bilingual dataset comprising 23,456 entries for Arabic and 10,036 entries for English, annotated for emotions and hope speech, addressing the scarcity of multi-emotion (Emotion and hope) datasets. The dataset provides comprehensive annotations capturing emotion intensity, complexity, and causes, alongside detailed classifications and subcategories for hope speech. To ensure annotation reliability, Fleiss' Kappa was employed, revealing 0.75-0.85 agreement among annotators both for Arabic and English language. The evaluation metrics (micro-F1-Score=0.67) obtained from the baseline model (i.e., using a machine learning model) validate that the data annotations are worthy. This dataset offers a valuable resource for advancing natural language processing in underrepresented languages, fostering better cross-linguistic analysis of emotions and hope speech.
- Abstract(参考訳): 本研究は、アラビア語用23,456項目と英語用10,036項目からなるバイリンガルデータセットを導入し、多感情(感情と希望)データセットの不足に対処する。
このデータセットは、感情の強さ、複雑さ、原因を捉える包括的なアノテーションと、希望のスピーチのための詳細な分類とサブカテゴリを提供する。
注釈の信頼性を確保するため、フライスのカッパが採用され、アラビア語と英語のアノテーターの間で0.75-0.85の合意が結ばれた。
ベースラインモデル(機械学習モデルを使用する)から得られた評価指標(micro-F1-Score=0.67)は、データアノテーションが有用であることを示す。
このデータセットは、表現不足の言語で自然言語処理を進めるための貴重なリソースを提供し、感情や希望音声の言語間分析をより良くする。
関連論文リスト
- MELD-ST: An Emotion-aware Speech Translation Dataset [29.650945917540316]
本稿では,感情認識型音声翻訳タスクのためのMELD-STデータセットについて述べる。
各言語ペアには、MELDデータセットからの感情ラベルを付加した約10,000の発話が含まれている。
データセット上のSeamlessM4Tモデルを用いたベースライン実験は、感情ラベルによる微調整によって、いくつかの環境での翻訳性能が向上することを示している。
論文 参考訳(メタデータ) (2024-05-21T22:40:38Z) - English Prompts are Better for NLI-based Zero-Shot Emotion
Classification than Target-Language Prompts [17.099269597133265]
たとえデータが異なる言語であっても、英語のプロンプトを使う方が一貫して良いことを示す。
自然言語推論に基づく言語モデルを用いた実験は、データが異なる言語である場合でも、英語のプロンプトを使う方が一貫して良いことを示す。
論文 参考訳(メタデータ) (2024-02-05T17:36:19Z) - Towards a Deep Understanding of Multilingual End-to-End Speech
Translation [52.26739715012842]
我々は22言語以上で訓練された多言語エンドツーエンド音声翻訳モデルで学習した表現を解析する。
我々は分析から3つの大きな発見を得た。
論文 参考訳(メタデータ) (2023-10-31T13:50:55Z) - CLARA: Multilingual Contrastive Learning for Audio Representation
Acquisition [5.520654376217889]
CLARAはラベル付きデータへの依存を最小限に抑え、言語間の一般化を強化する。
我々のアプローチは、主観的評価問題を克服し、音声における感情的ニュアンスを十分に捉えている。
低リソース言語に適応し、多言語音声表現学習の進歩を示す。
論文 参考訳(メタデータ) (2023-10-18T09:31:56Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。