論文の概要: EmoAra: Emotion-Preserving English Speech Transcription and Cross-Lingual Translation with Arabic Text-to-Speech
- arxiv url: http://arxiv.org/abs/2602.01170v1
- Date: Sun, 01 Feb 2026 11:38:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.641456
- Title: EmoAra: Emotion-Preserving English Speech Transcription and Cross-Lingual Translation with Arabic Text-to-Speech
- Title(参考訳): EmoAra: アラビア語テキスト音声による英語音声の感情保存と言語間翻訳
- Authors: Besher Hassan, Ibrahim Alsarraj, Musaab Hasan, Yousef Melhim, Shahem Fadi, Shahem Sultan,
- Abstract要約: EmoAraは、言語間通信のための感情保存パイプラインである。
感情的なコンテキストがサービス品質に影響を与える、銀行のカスタマサービスによって動機付けられています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work presents EmoAra, an end-to-end emotion-preserving pipeline for cross-lingual spoken communication, motivated by banking customer service where emotional context affects service quality. EmoAra integrates Speech Emotion Recognition, Automatic Speech Recognition, Machine Translation, and Text-to-Speech to process English speech and deliver an Arabic spoken output while retaining emotional nuance. The system uses a CNN-based emotion classifier, Whisper for English transcription, a fine-tuned MarianMT model for English-to-Arabic translation, and MMS-TTS-Ara for Arabic speech synthesis. Experiments report an F1-score of 94% for emotion classification, translation performance of BLEU 56 and BERTScore F1 88.7%, and an average human evaluation score of 81% on banking-domain translations. The implementation and resources are available at the accompanying GitHub repository.
- Abstract(参考訳): EmoAraは、感情的コンテキストがサービス品質に影響を与える銀行顧客サービスによって動機付けられた、言語間通信のためのエンドツーエンドの感情保存パイプラインである。
EmoAraは、音声認識、自動音声認識、機械翻訳、テキスト・トゥ・音声を統合して、感情的なニュアンスを維持しながら、英語の音声処理とアラビア語の音声出力を提供する。
このシステムは、CNNベースの感情分類器、英語の転写にWhisper、英語からアラビア語への翻訳に微調整されたMarianMTモデル、アラビア語の音声合成にMMS-TTS-Araを使用する。
実験では、感情分類では94%のF1スコア、BLEU 56とBERTScore F1 88.7%の翻訳性能、銀行ドメイン翻訳では平均81%の人間評価スコアが報告されている。
実装とリソースは、付随するGitHubリポジトリで利用できる。
関連論文リスト
- Speaker Style-Aware Phoneme Anchoring for Improved Cross-Lingual Speech Emotion Recognition [58.74986434825755]
言語間音声の感情認識は、音韻変動と話者固有の表現スタイルの違いにより難しい課題である。
本研究では,感情表現を音素レベルと話者レベルで整列させる話者スタイルの音素アンカーフレームワークを提案する。
本手法は,グラフに基づくクラスタリングにより,感情特異的な話者コミュニティを構築し,話者の特徴を抽出する。
論文 参考訳(メタデータ) (2025-09-19T21:03:21Z) - HausaNLP at SemEval-2025 Task 11: Hausa Text Emotion Detection [0.0]
本稿では,SemEval Track Aのための低リソースアフリカ言語Hausaにおけるマルチラベル感情検出手法を提案する。
アフリカの言語で事前訓練されたトランスフォーマーベースのモデルであるAfriBERTaを微調整して、Hausaテキストを怒り、嫌悪感、恐怖、喜び、悲しみ、驚きの6つの感情に分類しました。
論文 参考訳(メタデータ) (2025-06-19T15:19:35Z) - EmoVoice: LLM-based Emotional Text-To-Speech Model with Freestyle Text Prompting [48.56693150755667]
感情制御可能な新しいTSモデルであるEmoVoiceを提案する。
EmoVoiceは、大きな言語モデル(LLM)を利用して、きめ細かいフリースタイルの自然言語感情制御を可能にする。
EmoVoiceは、英語のEmoVoice-DBテストセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-04-17T11:50:04Z) - MixSpeech: Cross-Modality Self-Learning with Audio-Visual Stream Mixup
for Visual Speech Translation and Recognition [51.412413996510814]
視覚音声の訓練を正規化するために音声音声を利用する多目的自己学習フレームワークであるMixSpeechを提案する。
MixSpeechは雑音の多い環境での音声翻訳を強化し、AVMuST-TED上でのBLEUスコアを+1.4から+4.2に改善した。
論文 参考訳(メタデータ) (2023-03-09T14:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。