論文の概要: ABHINAYA -- A System for Speech Emotion Recognition In Naturalistic Conditions Challenge
- arxiv url: http://arxiv.org/abs/2505.18217v1
- Date: Fri, 23 May 2025 08:01:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.219563
- Title: ABHINAYA -- A System for Speech Emotion Recognition In Naturalistic Conditions Challenge
- Title(参考訳): 自然主義的課題における音声感情認識システムABHINAYA
- Authors: Soumya Dutta, Smruthi Balaji, Varada R, Viveka Salinamakki, Sriram Ganapathy,
- Abstract要約: 本稿では,音声ベース,テキストベース,音声テキストモデルを統合するシステムであるAbhinayaを紹介する。
音声表現のための自己教師型音声大言語モデル(SLLM)を提案する。
クラス不均衡に対処するために、調整された損失関数を適用し、多数決によってカテゴリー決定を生成する。
- 参考スコア(独自算出の注目度): 26.88581786290044
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Speech emotion recognition (SER) in naturalistic settings remains a challenge due to the intrinsic variability, diverse recording conditions, and class imbalance. As participants in the Interspeech Naturalistic SER Challenge which focused on these complexities, we present Abhinaya, a system integrating speech-based, text-based, and speech-text models. Our approach fine-tunes self-supervised and speech large language models (SLLM) for speech representations, leverages large language models (LLM) for textual context, and employs speech-text modeling with an SLLM to capture nuanced emotional cues. To combat class imbalance, we apply tailored loss functions and generate categorical decisions through majority voting. Despite one model not being fully trained, the Abhinaya system ranked 4th among 166 submissions. Upon completion of training, it achieved state-of-the-art performance among published results, demonstrating the effectiveness of our approach for SER in real-world conditions.
- Abstract(参考訳): 自然主義的環境下での音声感情認識(SER)は、固有の変動性、多様な記録条件、クラス不均衡のため、依然として課題である。
これらの複雑さに焦点をあてたInterspeech Naturalistic SER Challengeの参加者として、音声ベース、テキストベース、および音声テキストモデルを統合するシステムであるAbhinayaを紹介した。
提案手法では,音声表現のための言語モデル (SLLM) を微調整し,大規模言語モデル (LLM) をテキスト・コンテキストに適用し,SLLM を用いた音声テキスト・モデリングを用いて感情的手がかりを抽出する。
クラス不均衡に対処するために、調整された損失関数を適用し、多数決によってカテゴリー決定を生成する。
完全な訓練を受けていないモデルが1つあったが、アビニャーヤ制度は166件中4位にランクインした。
実環境下でのSERに対するアプローチの有効性を実証した。
関連論文リスト
- OpenOmni: Advancing Open-Source Omnimodal Large Language Models with Progressive Multimodal Alignment and Real-Time Self-Aware Emotional Speech Synthesis [73.03333371375]
nameは、一様アライメントと音声生成を統合する2段階のトレーニングフレームワークである。
雑用、視覚言語、音声言語ベンチマークで最先端モデルを上回っている。
nameは、非自己回帰モードで1秒のレイテンシでリアルタイムの音声生成を実現する。
論文 参考訳(メタデータ) (2025-01-08T15:18:09Z) - Enhancing Indonesian Automatic Speech Recognition: Evaluating Multilingual Models with Diverse Speech Variabilities [9.473861847584843]
本稿では,MMS(Massively Multilingual Speech)とWhisper(Whisper)という,最先端の音声認識モデルについて述べる。
インドネシア語音声データを様々な変動群で書き起こすモデルの予測能力について検討する。
論文 参考訳(メタデータ) (2024-10-11T14:07:07Z) - Spontaneous Style Text-to-Speech Synthesis with Controllable Spontaneous Behaviors Based on Language Models [55.898594710420326]
本稿では,言語モデルに基づく新たな自然音声合成システムを提案する。
自発音声における微妙な韻律変化を捉えるモデルの能力を高めるために, きめ細かい韻律モデリングを導入する。
論文 参考訳(メタデータ) (2024-07-18T13:42:38Z) - DeSTA: Enhancing Speech Language Models through Descriptive Speech-Text Alignment [82.86363991170546]
本稿では、音声キャプションを利用して音声とテキストのモダリティのギャップを埋める記述型音声テキストアライメント手法を提案する。
我々のモデルはDynamic-SUPERBベンチマークで優れた性能を示し、特に目に見えないタスクに一般化する。
これらの知見は、説明豊かな音声キャプションを組み込むことにより、指示追従型SLMを再構築する可能性を強調した。
論文 参考訳(メタデータ) (2024-06-27T03:52:35Z) - Leveraging the Interplay Between Syntactic and Acoustic Cues for Optimizing Korean TTS Pause Formation [6.225927189801006]
本稿では,パジングパターンに関連する構文的手法と音響的手法の両方を包括的にモデル化する新しい枠組みを提案する。
注目に値することに、我々のフレームワークは、より拡張され複雑なドメイン外文(OOD)であっても、自然言語を一貫して生成する能力を持っている。
論文 参考訳(メタデータ) (2024-04-03T09:17:38Z) - Paralinguistics-Aware Speech-Empowered Large Language Models for Natural Conversation [46.93969003104427]
本稿では,広範な音声テキストLLMフレームワークである統一音声対話モデル(USDM)を紹介する。
USDMは、与えられた入力音声に関連する自然な韻律的特徴を持つコヒーレントな音声応答を生成するように設計されている。
提案手法は,従来のベースラインとカスケードベースラインを超越した自然な音声応答を効果的に生成する。
論文 参考訳(メタデータ) (2024-02-08T14:35:09Z) - Evaluating Speech Synthesis by Training Recognizers on Synthetic Speech [34.8899247119748]
合成音声におけるASRモデルの訓練と実音声における性能評価を含む評価手法を提案する。
提案手法は,SpeechLMScore や MOSNet と比較して,MOS の自然性と MOS の知性の両方に強い相関関係を示す。
論文 参考訳(メタデータ) (2023-10-01T15:52:48Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。