論文の概要: Human Feedback Driven Dynamic Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2508.14920v1
- Date: Mon, 18 Aug 2025 17:25:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.01751
- Title: Human Feedback Driven Dynamic Speech Emotion Recognition
- Title(参考訳): フィードバック駆動型動的音声感情認識
- Authors: Ilya Fedorov, Dmitry Korobchenko,
- Abstract要約: この研究は特に感情的な3Dアバターのアニメーションに焦点を当てている。
本稿では,従来の音声感情認識モデルの訓練を含む多段階手法を提案する。
ディリクレ分布に基づく感情混合をモデル化するための新しい手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work proposes to explore a new area of dynamic speech emotion recognition. Unlike traditional methods, we assume that each audio track is associated with a sequence of emotions active at different moments in time. The study particularly focuses on the animation of emotional 3D avatars. We propose a multi-stage method that includes the training of a classical speech emotion recognition model, synthetic generation of emotional sequences, and further model improvement based on human feedback. Additionally, we introduce a novel approach to modeling emotional mixtures based on the Dirichlet distribution. The models are evaluated based on ground-truth emotions extracted from a dataset of 3D facial animations. We compare our models against the sliding window approach. Our experimental results show the effectiveness of Dirichlet-based approach in modeling emotional mixtures. Incorporating human feedback further improves the model quality while providing a simplified annotation procedure.
- Abstract(参考訳): 本研究は,動的音声感情認識の新しい領域を探求することを提案する。
従来の方法とは異なり、各オーディオトラックは異なるタイミングで活動する一連の感情に関連付けられていると仮定する。
この研究は特に感情的な3Dアバターのアニメーションに焦点を当てている。
本研究では,従来の音声感情認識モデルの訓練,感情系列の合成生成,さらに人間のフィードバックに基づくモデル改善を含む多段階的手法を提案する。
さらに,ディリクレ分布に基づく感情混合をモデル化するための新しい手法を提案する。
モデルは3次元顔アニメーションのデータセットから抽出した地動感情に基づいて評価される。
私たちはモデルをスライディングウインドウアプローチと比較します。
実験の結果,感情混合のモデル化におけるディリクレに基づくアプローチの有効性が示された。
人間のフィードバックを取り入れることで、簡易なアノテーション手順を提供しながら、モデル品質がさらに向上する。
関連論文リスト
- Taming Transformer for Emotion-Controllable Talking Face Generation [61.835295250047196]
本稿では,感情制御可能な発話顔生成タスクを個別に行うための新しい手法を提案する。
具体的には、2つの事前学習戦略を用いて、音声を独立したコンポーネントに分解し、映像を視覚トークンの組み合わせに定量化する。
我々は、複数の感情的オーディオで調整された映像の感情を制御するMEADデータセット上で実験を行う。
論文 参考訳(メタデータ) (2025-08-20T02:16:52Z) - EmoDiffusion: Enhancing Emotional 3D Facial Animation with Latent Diffusion Models [66.67979602235015]
エモディフュージョン(EmoDiffusion)は、音声中の様々な感情をアンタングルしてリッチな3次元の表情を生成する新しいアプローチである。
iPhone上のLiveLinkFaceを使ってアニメーション専門家の指導の下で表情をキャプチャする。
論文 参考訳(メタデータ) (2025-03-14T02:54:22Z) - ESARM: 3D Emotional Speech-to-Animation via Reward Model from Automatically-Ranked Demonstrations [22.85503397110192]
本稿では,既存のモデルの欠点に対処する新しい3次元音声アニメーション(STA)生成フレームワークを提案する。
本稿では、報酬モデルと結合した新しいSTAモデルを紹介し、この組み合わせにより、音声条件下での感情と内容の疎結合を可能にする。
ベンチマークデータセット上で大規模な実験を行い,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2024-11-20T07:37:37Z) - CSTalk: Correlation Supervised Speech-driven 3D Emotional Facial Animation Generation [13.27632316528572]
音声駆動の3D顔アニメーション技術は長年開発されてきたが、実用的応用には期待できない。
主な課題は、データ制限、唇のアライメント、表情の自然さである。
本稿では,顔の動きの異なる領域間の相関をモデル化し,生成モデルの訓練を監督し,現実的な表現を生成するCSTalkという手法を提案する。
論文 参考訳(メタデータ) (2024-04-29T11:19:15Z) - GMTalker: Gaussian Mixture-based Audio-Driven Emotional Talking Video Portraits [60.05683966405544]
GMTalkerはガウスの混合合成による感情的な音声画像生成フレームワークである。
具体的には,よりフレキシブルな感情操作を実現するために,連続的かつ不整合な潜在空間を提案する。
また,多種多様な頭部ポーズ,瞬き,眼球運動を生成するために,大規模データセット上で事前訓練された正規化フローベースモーションジェネレータを導入する。
論文 参考訳(メタデータ) (2023-12-12T19:03:04Z) - Speech Synthesis with Mixed Emotions [77.05097999561298]
異なる感情の音声サンプル間の相対的な差を測定する新しい定式化を提案する。
次に、私たちの定式化を、シーケンスからシーケンスまでの感情的なテキストから音声へのフレームワークに組み込む。
実行時に、感情属性ベクトルを手動で定義し、所望の感情混合を生成するためにモデルを制御する。
論文 参考訳(メタデータ) (2022-08-11T15:45:58Z) - EAMM: One-Shot Emotional Talking Face via Audio-Based Emotion-Aware
Motion Model [32.19539143308341]
本研究では,感情認識運動モデル(EAMM)を提案する。
両モジュールの結果を組み込むことで,任意の被験者に対して良好な話し声を生成できる。
論文 参考訳(メタデータ) (2022-05-30T17:39:45Z) - Enhancing Cognitive Models of Emotions with Representation Learning [58.2386408470585]
本稿では,きめ細かな感情の埋め込み表現を生成するための,新しいディープラーニングフレームワークを提案する。
本フレームワークは,コンテキスト型埋め込みエンコーダとマルチヘッド探索モデルを統合する。
本モデルは共感対話データセット上で評価され,32種類の感情を分類する最新結果を示す。
論文 参考訳(メタデータ) (2021-04-20T16:55:15Z) - Affect2MM: Affective Analysis of Multimedia Content Using Emotion
Causality [84.69595956853908]
本稿では,マルチメディアコンテンツを対象とした時系列感情予測学習手法であるAffect2MMを提案する。
私たちの目標は、現実の人間中心の状況や行動でキャラクターが描く様々な感情を自動的に捉えることです。
論文 参考訳(メタデータ) (2021-03-11T09:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。