Fugu-MT 論文翻訳(概要): Mouth Articulation-Based Anchoring for Improved Cross-Corpus Speech Emotion Recognition

論文の概要: Mouth Articulation-Based Anchoring for Improved Cross-Corpus Speech Emotion Recognition

arxiv url: http://arxiv.org/abs/2412.19909v1
Date: Fri, 27 Dec 2024 20:00:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-31 22:07:02.397439
Title: Mouth Articulation-Based Anchoring for Improved Cross-Corpus Speech Emotion Recognition
Title（参考訳）: モース調律に基づくクロスコーパス音声認識のためのアンカリング
Authors: Shreya G. Upadhyay, Ali N. Salman, Carlos Busso, Chi-Chun Lee,
Abstract要約: クロスコーパス音声感情認識(SER)は多くの実践的応用において重要な役割を担っている。クロスコーパスの感情伝達への伝統的なアプローチは、しばしば異なるコーパス、ドメインまたはラベルに合わせるために音響的特徴を適用することに集中する。本研究は、感情特異的な調音ジェスチャーを分析のコア要素とする、新しいコントラスト的アプローチを採用する。
参考スコア（独自算出の注目度）: 37.57745459245874
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Cross-corpus speech emotion recognition (SER) plays a vital role in numerous practical applications. Traditional approaches to cross-corpus emotion transfer often concentrate on adapting acoustic features to align with different corpora, domains, or labels. However, acoustic features are inherently variable and error-prone due to factors like speaker differences, domain shifts, and recording conditions. To address these challenges, this study adopts a novel contrastive approach by focusing on emotion-specific articulatory gestures as the core elements for analysis. By shifting the emphasis on the more stable and consistent articulatory gestures, we aim to enhance emotion transfer learning in SER tasks. Our research leverages the CREMA-D and MSP-IMPROV corpora as benchmarks and it reveals valuable insights into the commonality and reliability of these articulatory gestures. The findings highlight mouth articulatory gesture potential as a better constraint for improving emotion recognition across different settings or domains.
Abstract（参考訳）: クロスコーパス音声感情認識(SER)は多くの実践的応用において重要な役割を担っている。クロスコーパスの感情伝達への伝統的なアプローチは、しばしば異なるコーパス、ドメインまたはラベルに合わせるために音響的特徴を適用することに集中する。しかし、音響特性は、話者差、ドメインシフト、記録条件などの要因により、本質的に変動し、エラーを起こしやすい。これらの課題に対処するために、分析のコア要素として感情特異的な調音ジェスチャーに焦点をあてて、対照的なアプローチを採用する。より安定的で一貫した調音ジェスチャーに重点を移すことで、SERタスクにおける感情伝達学習を強化することを目指している。本研究は, CREMA-D と MSP-IMPROV のコーパスをベンチマークとして利用し, これらの調音ジェスチャーの共通性と信頼性に関する貴重な知見を明らかにする。これらの知見は、異なる設定や領域における感情認識を改善するためのより良い制約として、口調音ジェスチャーの可能性を強調している。

関連論文リスト

From Coarse to Nuanced: Cross-Modal Alignment of Fine-Grained Linguistic Cues and Visual Salient Regions for Dynamic Emotion Recognition [7.362433184546492]
動的表情認識は、時間的に変化する顔の動きから人間の感情を識別することを目的としている。本手法は,動的な動作モデリング,意味的テキストの洗練,トークンレベルのクロスモーダルアライメントを統合し,感情的に有意な特徴の正確な局所化を容易にする。
論文参考訳（メタデータ） (2025-07-16T04:15:06Z)
EmotionRankCLAP: Bridging Natural Language Speaking Styles and Ordinal Speech Emotion via Rank-N-Contrast [24.24520233247336]
EmotionRankCLAPは、感情音声の次元特性と自然言語のプロンプトを用いて、きめ細かな感情変化を協調的にキャプチャする教師付きコントラスト学習手法である。 EmotionRankCLAPは、モーダル横断検索タスクを通じて測定された感情の規則性をモデル化する既存の感情-CLAPメソッドよりも優れています。
論文参考訳（メタデータ） (2025-05-29T17:56:55Z)
Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文参考訳（メタデータ） (2025-04-25T05:28:21Z)
GatedxLSTM: A Multimodal Affective Computing Approach for Emotion Recognition in Conversations [35.63053777817013]
GatedxLSTMは、会話におけるマルチモーダル感情認識(ERC)モデルである。話者と会話相手の双方の声と書き起こしを考慮し、感情的なシフトを駆動する最も影響力のある文章を特定する。 4クラスの感情分類において,オープンソース手法間でのSOTA(State-of-the-art)性能を実現する。
論文参考訳（メタデータ） (2025-03-26T18:46:18Z)
Attention-based Interactive Disentangling Network for Instance-level Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文参考訳（メタデータ） (2023-12-29T08:06:45Z)
MSAC: Multiple Speech Attribute Control Method for Reliable Speech Emotion Recognition [7.81011775615268]
シングルコーパスとクロスコーパスSERの両方を同時に処理できる新しい統合SERフレームワークであるMSAC-SERNetを紹介する。様々な音声属性間の情報重なりを考慮し、異なる音声属性の相関に基づく新しい学習パラダイムを提案する。シングルコーパスSERシナリオとクロスコーパスSERシナリオの両方の実験は、MSAC-SERNetが最先端SERアプローチと比較して優れた性能を発揮することを示している。
論文参考訳（メタデータ） (2023-08-08T03:43:24Z)
Empirical Interpretation of the Relationship Between Speech Acoustic Context and Emotion Recognition [28.114873457383354]
音声感情認識(SER)は、感情的な知性を得、発話の文脈的意味を理解するために不可欠である。実際に、音声の感情は、所定の時間の間、音響セグメント上で単一のラベルとして扱われる。本研究は,SERにおける音声コンテキストと音声境界が局所的マーカーに与える影響について,注意に基づくアプローチを用いて検討する。
論文参考訳（メタデータ） (2023-06-30T09:21:48Z)
Attention-based Region of Interest (ROI) Detection for Speech Emotion Recognition [4.610756199751138]
本研究では,深部脳神経回路網における注意機構を用いて,人間の感情的音声/ビデオにおいてより感情的に有意な関心領域(ROI)を検出することを提案する。 6つの基本的な人間の感情を認識する多クラス分類タスクにおいて,提案した注目ネットワークと最先端のLSTMモデルの性能を比較した。
論文参考訳（メタデータ） (2022-03-03T22:01:48Z)
Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。本稿では,感情の強さを明示的に表現し,制御することを目的とする。本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文参考訳（メタデータ） (2022-01-10T02:11:25Z)
Acted vs. Improvised: Domain Adaptation for Elicitation Approaches in Audio-Visual Emotion Recognition [29.916609743097215]
一般化された感情認識システムの開発における主な課題は、ラベル付きデータの不足とゴールドスタンダード参照の欠如である。本研究では,感情誘発アプローチをドメイン知識とみなし,感情発話におけるドメイン伝達学習技術を探求する。
論文参考訳（メタデータ） (2021-04-05T15:59:31Z)
Reinforcement Learning for Emotional Text-to-Speech Synthesis with Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。 i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。 i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文参考訳（メタデータ） (2021-04-03T13:52:47Z)
Seen and Unseen emotional style transfer for voice conversion with a new emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文参考訳（メタデータ） (2020-10-28T07:16:18Z)
COSMIC: COmmonSense knowledge for eMotion Identification in Conversations [95.71018134363976]
我々は,心的状態,出来事,因果関係など,常識の異なる要素を取り入れた新しい枠組みであるCOSMICを提案する。我々は,COSMICが4つのベンチマークの会話データセット上で,感情認識のための最新の結果を実現することを示す。
論文参考訳（メタデータ） (2020-10-06T15:09:38Z)
Detecting Emotion Primitives from Speech and their use in discerning Categorical Emotions [16.886826928295203]
感情は人間同士のコミュニケーションにおいて重要な役割を担い、幸福やフラストレーション、誠実さといった感情を伝えることができる。この研究は、感情プリミティブが、幸福、嫌悪、軽蔑、怒り、驚きといったカテゴリー的感情を中性的なスピーチから検出する方法について研究した。以上の結果から, 覚醒と支配は, 感情のより優れた検出方法であった。
論文参考訳（メタデータ） (2020-01-31T03:11:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。