論文の概要: Fine-tuning Wav2vec for Vocal-burst Emotion Recognition
- arxiv url: http://arxiv.org/abs/2210.00263v1
- Date: Sat, 1 Oct 2022 12:03:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 17:56:22.792653
- Title: Fine-tuning Wav2vec for Vocal-burst Emotion Recognition
- Title(参考訳): 声帯感情認識のための微調整Wav2vec
- Authors: Dang-Khanh Nguyen, Sudarshan Pant, Ngoc-Huynh Ho, Guee-Sang Lee,
Soo-Huyng Kim, Hyung-Jeong Yang
- Abstract要約: ACII Vocal Affective Bursts (A-VB)コンペティションでは、感情コンピューティングの新しいトピックが紹介されている。
笑い声、叫び声、サインなどの発声は、行動分析に非常に有用なものであるにもかかわらず、利用されない。
本技術報告では,課題の課題に対するScribCNUチームの方法と成果について述べる。
- 参考スコア(独自算出の注目度): 7.910908058662372
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ACII Affective Vocal Bursts (A-VB) competition introduces a new topic in
affective computing, which is understanding emotional expression using the
non-verbal sound of humans. We are familiar with emotion recognition via verbal
vocal or facial expression. However, the vocal bursts such as laughs, cries,
and signs, are not exploited even though they are very informative for behavior
analysis. The A-VB competition comprises four tasks that explore non-verbal
information in different spaces. This technical report describes the method and
the result of SclabCNU Team for the tasks of the challenge. We achieved
promising results compared to the baseline model provided by the organizers.
- Abstract(参考訳): acii affective vocal bursts (a-vb) コンペティションでは、人間の非言語音を用いて感情表現を理解する、感情コンピューティングの新しいトピックが紹介されている。
我々は音声や表情による感情認識に精通している。
しかし、笑い、泣き声、標識といった声帯の破裂は、行動分析に非常に有益であるにもかかわらず、悪用されない。
A-VBコンペティションは、異なる空間における非言語情報を探索する4つのタスクからなる。
本技術報告では,課題の課題に対するScribCNUチームの方法と成果について述べる。
主催者が提供するベースラインモデルと比較して有望な結果を得た。
関連論文リスト
- Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - emotion2vec: Self-Supervised Pre-Training for Speech Emotion
Representation [42.29118614670941]
普遍的な音声感情表現モデルである感情2vecを提案する。
感情2vecは自己監督型オンライン蒸留を通じてラベルなしの感情データに基づいて事前訓練される。
最先端の訓練済みユニバーサルモデルや感情スペシャリストモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-23T07:46:55Z) - Prompting Audios Using Acoustic Properties For Emotion Representation [36.275219004598874]
感情を表現するために自然言語記述(あるいはプロンプト)の使用を提案する。
我々は、ピッチ、強度、発話速度、調音率などの感情に相関する音響特性を用いて、自動的にプロンプトを生成する。
その結果,様々なPrecision@K測定値において,音響的プロンプトがモデルの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-03T13:06:58Z) - ABAW: Valence-Arousal Estimation, Expression Recognition, Action Unit
Detection & Emotional Reaction Intensity Estimation Challenges [62.413819189049946]
5th Affective Behavior Analysis in-the-Wild(ABAW)コンペティションは、IEEE Computer Vision and Pattern Recognition Conference(CVPR)と共同で開催される各ABAWワークショップの一部である。
今年のコンペティションでは、Aff-Wild2データベースの拡張バージョンとHume-Reactionデータセットの2つのコーパスが特徴です。
後者のデータセットは、感情的刺激に対する個人の反応が7つの感情的表現強度に対して注釈付けされている聴覚的データセットである。
論文 参考訳(メタデータ) (2023-03-02T18:58:15Z) - Describing emotions with acoustic property prompts for speech emotion
recognition [30.990720176317463]
本研究では、ピッチ、ラウドネス、発声率、調音率などの音響特性を演算することで、所定の音声に対する記述を自動生成する手法を提案する。
これらの音声テキストペアを用いてニューラルネットワークモデルをトレーニングし、さらに1つのデータセットを用いてモデルを評価する。
モデルが音声と記述を関連づけることについて検討し,その結果,音声の感情認識と音声検索の性能が向上した。
論文 参考訳(メタデータ) (2022-11-14T20:29:37Z) - Self-Supervised Attention Networks and Uncertainty Loss Weighting for
Multi-Task Emotion Recognition on Vocal Bursts [5.3802825558183835]
本稿では,A-VB(A-VB)における発声バーストの分類と,その感情的意義を予測するためのアプローチを提案する。
当社のアプローチは,4つのタスクのすべてにおいて,課題ベースラインをはるかに越えています。
論文 参考訳(メタデータ) (2022-09-15T15:50:27Z) - Speech Synthesis with Mixed Emotions [77.05097999561298]
異なる感情の音声サンプル間の相対的な差を測定する新しい定式化を提案する。
次に、私たちの定式化を、シーケンスからシーケンスまでの感情的なテキストから音声へのフレームワークに組み込む。
実行時に、感情属性ベクトルを手動で定義し、所望の感情混合を生成するためにモデルを制御する。
論文 参考訳(メタデータ) (2022-08-11T15:45:58Z) - AHD ConvNet for Speech Emotion Classification [0.0]
本稿では,一般的なCREMA-Dデータセットにおいて,与えられたwav形式の音声ノートから感情を学習するためのデータポイントを用いた新しいメルスペクトル学習手法を提案する。
感情音声認識の課題に対処するために用いられた他のアプローチと比較して、トレーニング時間が短縮された。
論文 参考訳(メタデータ) (2022-06-10T11:57:28Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。