論文の概要: SEGAA: A Unified Approach to Predicting Age, Gender, and Emotion in
Speech
- arxiv url: http://arxiv.org/abs/2403.00887v1
- Date: Fri, 1 Mar 2024 11:28:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 16:06:57.634379
- Title: SEGAA: A Unified Approach to Predicting Age, Gender, and Emotion in
Speech
- Title(参考訳): SEGAA: 音声における年齢・性別・感情の統一的予測手法
- Authors: Aron R, Indra Sigicharla, Chirag Periwal, Mohanaprasad K, Nithya
Darisini P S, Sourabh Tiwari, Shivani Arora
- Abstract要約: この研究は、膨大な応用分野である声道の年齢、性別、感情を予測することを目的としている。
これらの予測のためのディープラーニングモデルを探索するには、本論文で強調された単一、複数出力、シーケンシャルモデルを比較する必要がある。
実験により,複数出力モデルが個々のモデルと相容れない性能を示し,変数と音声入力の複雑な関係を効率よく把握し,実行環境の改善を実現している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The interpretation of human voices holds importance across various
applications. This study ventures into predicting age, gender, and emotion from
vocal cues, a field with vast applications. Voice analysis tech advancements
span domains, from improving customer interactions to enhancing healthcare and
retail experiences. Discerning emotions aids mental health, while age and
gender detection are vital in various contexts. Exploring deep learning models
for these predictions involves comparing single, multi-output, and sequential
models highlighted in this paper. Sourcing suitable data posed challenges,
resulting in the amalgamation of the CREMA-D and EMO-DB datasets. Prior work
showed promise in individual predictions, but limited research considered all
three variables simultaneously. This paper identifies flaws in an individual
model approach and advocates for our novel multi-output learning architecture
Speech-based Emotion Gender and Age Analysis (SEGAA) model. The experiments
suggest that Multi-output models perform comparably to individual models,
efficiently capturing the intricate relationships between variables and speech
inputs, all while achieving improved runtime.
- Abstract(参考訳): 人間の声の解釈は様々な応用において重要である。
この研究は、膨大な応用分野である声道の年齢、性別、感情を予測することを目的としている。
音声分析技術の進歩は、顧客のインタラクションの改善から、ヘルスケアや小売エクスペリエンスの向上まで、ドメインにまたがる。
認知的感情は精神的な健康に役立ち、年齢や性別の検出は様々な文脈で不可欠である。
これらの予測のためのディープラーニングモデルの探索は、本論文で強調されたシングル、マルチアウトプット、シーケンシャルモデルの比較を含む。
適切なデータのソーシングが課題となり、CREMA-DとEMO-DBデータセットが融合した。
以前の研究は個々の予測に有望性を示したが、限定的な研究は3つの変数を同時に考慮した。
本稿では、個別モデルアプローチにおける欠陥を特定し、新しいマルチアウトプット学習アーキテクチャである音声ベース感情性分析(SEGAA)モデルを提案する。
実験により,複数出力モデルが個々のモデルと相容れない性能を示し,変数と音声入力の複雑な関係を効率よく把握し,実行環境の改善を実現している。
関連論文リスト
- PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
社会実践, 一貫性, 動的発達という, 心理学に根ざした個性の原則を統合したPersLLMを提案する。
モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - Cognitive Insights Across Languages: Enhancing Multimodal Interview Analysis [0.6062751776009752]
軽度認知障害と認知スコアを予測できるマルチモーダルモデルを提案する。
提案モデルでは,インタビューで使用した言語を書き起こし,区別する能力を示す。
提案手法では,提案手法から得られた様々な特徴を詳細に検討する。
論文 参考訳(メタデータ) (2024-06-11T17:59:31Z) - A Multi-Task, Multi-Modal Approach for Predicting Categorical and
Dimensional Emotions [0.0]
分類的・次元的な感情を予測するマルチタスク・マルチモーダルシステムを提案する。
その結果,2種類の感情の相互規則化の重要性が強調された。
論文 参考訳(メタデータ) (2023-12-31T16:48:03Z) - A Hierarchical Regression Chain Framework for Affective Vocal Burst
Recognition [72.36055502078193]
本稿では,声帯からの感情認識のための連鎖回帰モデルに基づく階層的枠組みを提案する。
データスパシティの課題に対処するため、レイヤワイドおよび時間アグリゲーションモジュールを備えた自己教師付き学習(SSL)表現も使用しています。
提案されたシステムは、ACII Affective Vocal Burst (A-VB) Challenge 2022に参加し、「TWO」および「CULTURE」タスクで第1位となった。
論文 参考訳(メタデータ) (2023-03-14T16:08:45Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z) - A Multibias-mitigated and Sentiment Knowledge Enriched Transformer for
Debiasing in Multimodal Conversational Emotion Recognition [9.020664590692705]
会話におけるマルチモーダル感情認識(mERC)は自然言語処理(NLP)において活発な研究課題である
無数の暗黙の偏見と先入観は人間の言語と会話を埋める。
既存のデータ駆動型mERCアプローチは、男性よりも女性の発話に対する感情的スコアが高い可能性がある。
論文 参考訳(メタデータ) (2022-07-17T08:16:49Z) - BEAT: A Large-Scale Semantic and Emotional Multi-Modal Dataset for
Conversational Gestures Synthesis [9.95713767110021]
Body-Expression-Audio-Textデータセットには、76時間、高品質、マルチモーダルなデータがあり、8つの異なる感情と4つの異なる言語で話す30人の話者から取得されている。
BEATは人間のジェスチャーを調べるための最大のモーションキャプチャーデータセットである。
論文 参考訳(メタデータ) (2022-03-10T11:19:52Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - DALL-Eval: Probing the Reasoning Skills and Social Biases of
Text-to-Image Generation Models [73.12069620086311]
テキスト・ツー・イメージ・モデルの視覚的推論能力と社会的バイアスについて検討する。
まず,物体認識,物体カウント,空間的関係理解という3つの視覚的推論スキルを計測する。
第2に、生成した画像の性別/肌の色調分布を測定することにより、性別と肌のトーンバイアスを評価する。
論文 参考訳(メタデータ) (2022-02-08T18:36:52Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Multitask Learning for Emotion and Personality Detection [17.029426018676997]
本研究では,人格特性と感情行動の相関関係を解明し,新しいマルチタスク学習フレームワークSoGMTLを提案する。
当社の計算効率の高いCNNベースのマルチタスクモデルは、複数の有名なパーソナリティおよび感情データセットにわたる最先端のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-01-07T03:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。