Fugu-MT 論文翻訳(概要): Large Language Models Meet Contrastive Learning: Zero-Shot Emotion Recognition Across Languages

論文の概要: Large Language Models Meet Contrastive Learning: Zero-Shot Emotion Recognition Across Languages

arxiv url: http://arxiv.org/abs/2503.21806v1
Date: Tue, 25 Mar 2025 05:58:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-31 19:09:59.392804
Title: Large Language Models Meet Contrastive Learning: Zero-Shot Emotion Recognition Across Languages
Title（参考訳）: コントラスト学習を伴う大規模言語モデル - 言語間のゼロショット感情認識
Authors: Heqing Zou, Fengmao Lv, Desheng Zheng, Eng Siong Chng, Deepu Rajan,
Abstract要約: コントラスト学習を利用して、多言語音声の特徴を洗練し、大きな言語モデルを拡張することを提案する。具体的には、感情空間における音声信号と言語的特徴を整合させるために、2段階の新たな訓練フレームワークを用いる。この分野での研究を進めるために,大規模合成多言語音声感情データセットM5SERを導入する。
参考スコア（独自算出の注目度）: 31.15696076055884
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multilingual speech emotion recognition aims to estimate a speaker's emotional state using a contactless method across different languages. However, variability in voice characteristics and linguistic diversity poses significant challenges for zero-shot speech emotion recognition, especially with multilingual datasets. In this paper, we propose leveraging contrastive learning to refine multilingual speech features and extend large language models for zero-shot multilingual speech emotion estimation. Specifically, we employ a novel two-stage training framework to align speech signals with linguistic features in the emotional space, capturing both emotion-aware and language-agnostic speech representations. To advance research in this field, we introduce a large-scale synthetic multilingual speech emotion dataset, M5SER. Our experiments demonstrate the effectiveness of the proposed method in both speech emotion recognition and zero-shot multilingual speech emotion recognition, including previously unseen datasets and languages.
Abstract（参考訳）: 多言語音声の感情認識は、異なる言語にまたがる接触のない手法を用いて話者の感情状態を推定することを目的としている。しかし、音声の特徴や言語的多様性の変化は、特に多言語データセットにおいて、ゼロショット音声の感情認識において重要な課題となる。本稿では,比較学習を活用して多言語音声の特徴を洗練し,ゼロショット多言語音声感情推定のための大規模言語モデルを拡張することを提案する。具体的には、感情的空間における音声信号と言語的特徴の整合を図り、感情認識と言語に依存しない音声表現の両方をキャプチャする新しい2段階の訓練フレームワークを用いる。この分野での研究を進めるために,大規模合成多言語音声感情データセットM5SERを導入する。本実験は,これまで見られなかったデータセットや言語を含む,音声感情認識とゼロショット多言語音声感情認識の両方において,提案手法の有効性を実証するものである。

関連論文リスト

EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions [152.41217651729738]
EMOVA (EMotionally Omni-present Voice Assistant) を提案する。セマンティック・アコースティック・ディコンタングルド・音声トークンーザでは、オムニモーダルアライメントが視覚言語や音声能力をさらに向上させることに驚く。 EMOVAは、視覚言語と音声のベンチマークの両方で最先端のパフォーマンスを初めて達成した。
論文参考訳（メタデータ） (2024-09-26T16:44:02Z)
CLARA: Multilingual Contrastive Learning for Audio Representation Acquisition [5.520654376217889]
CLARAはラベル付きデータへの依存を最小限に抑え、言語間の一般化を強化する。我々のアプローチは、主観的評価問題を克服し、音声における感情的ニュアンスを十分に捉えている。低リソース言語に適応し、多言語音声表現学習の進歩を示す。
論文参考訳（メタデータ） (2023-10-18T09:31:56Z)
Effect of Attention and Self-Supervised Speech Embeddings on Non-Semantic Speech Tasks [3.570593982494095]
我々は、より現実的な認識課題として、音声感情理解を考察する。我々は,ComParEの多言語話者の豊富なデータセットと,その感情の「感情共有」や知覚の多言語回帰ターゲットを利用する。以上の結果から,HuBERT-Largeの自己アテンションに基づく軽量シーケンスモデルでは,報告されたベースラインよりも4.6%向上していることがわかった。
論文参考訳（メタデータ） (2023-08-28T07:11:27Z)
AffectEcho: Speaker Independent and Language-Agnostic Emotion and Affect Transfer for Speech Synthesis [13.918119853846838]
Affectは、原子価、覚醒、強さを含む感情的特徴であり、真正な会話を可能にする重要な属性である。本稿では,Vector Quantized Codebookを用いた感情翻訳モデルAffectEchoを提案する。それぞれの話者に特有のアイデンティティ、スタイル、感情のリズムを保ちながら、生成した音声の感情を制御する方法の有効性を実証する。
論文参考訳（メタデータ） (2023-08-16T06:28:29Z)
Cross-Lingual Cross-Age Group Adaptation for Low-Resource Elderly Speech Emotion Recognition [48.29355616574199]
我々は、英語、中国語、カントン語という3つの異なる言語における感情認識の伝達可能性を分析する。本研究は,異なる言語群と年齢群が特定の音声特徴を必要とすることを結論し,言語間推論を不適切な方法とする。
論文参考訳（メタデータ） (2023-06-26T08:48:08Z)
MoLE : Mixture of Language Experts for Multi-Lingual Automatic Speech Recognition [12.23416994447554]
我々はMixture-of-Language-Expert(MoLE)という多言語音声認識ネットワークを提案する。 MoLEは、任意の言語で入力された音声から言語表現を分析し、軽量な言語トークン化器で言語固有の専門家を活性化する。信頼性に基づいて、アクティベートされた専門家と言語に依存しない専門家を集約し、言語条件の埋め込みを表現する。
論文参考訳（メタデータ） (2023-02-27T13:26:17Z)
Multilingual Speech Emotion Recognition With Multi-Gating Mechanism and Neural Architecture Search [15.51730246937201]
SERは、音声をHappy、Angry、Fear、Disgust、Neutralなどの感情カテゴリーに分類する。本稿では,複数の事前学習された音声モデルから感情情報を抽出する言語特化モデルを提案する。我々のモデルは、ドイツ語では3%、フランス語では14.3%の精度で最先端の精度を上げる。
論文参考訳（メタデータ） (2022-10-31T19:55:33Z)
Perception Point: Identifying Critical Learning Periods in Speech for Bilingual Networks [58.24134321728942]
ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
論文参考訳（メタデータ） (2021-10-13T05:30:50Z)
Exploring Teacher-Student Learning Approach for Multi-lingual Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文参考訳（メタデータ） (2021-09-28T04:43:11Z)
Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文参考訳（メタデータ） (2021-09-01T09:32:06Z)
AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文参考訳（メタデータ） (2021-04-17T20:23:45Z)
Limited Data Emotional Voice Conversion Leveraging Text-to-Speech: Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文参考訳（メタデータ） (2021-03-31T04:56:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。