論文の概要: Meta-PerSER: Few-Shot Listener Personalized Speech Emotion Recognition via Meta-learning
- arxiv url: http://arxiv.org/abs/2505.16220v1
- Date: Thu, 22 May 2025 04:44:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.040079
- Title: Meta-PerSER: Few-Shot Listener Personalized Speech Emotion Recognition via Meta-learning
- Title(参考訳): Meta-PerSER:メタラーニングによるFew-Shotリスナーの個人化音声感情認識
- Authors: Liang-Yeh Shen, Shi-Xin Fang, Yi-Cheng Lin, Huang-Cheng Chou, Hung-yi Lee,
- Abstract要約: 本稿では,音声感情認識(SER)をパーソナライズするメタ学習フレームワークMeta-PerSERを紹介する。
事前学習した自己教師付きモデルからの堅牢な表現を統合することで、まず一般的な感情的手がかりを捉え、それから個人的アノテーションスタイルに微調整する。
IEMOCAPコーパスの実験では、Meta-PerSERは、目に見えないデータシナリオと見えないデータシナリオの両方において、ベースラインメソッドを大幅に上回っている。
- 参考スコア(独自算出の注目度): 45.925209699021124
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper introduces Meta-PerSER, a novel meta-learning framework that personalizes Speech Emotion Recognition (SER) by adapting to each listener's unique way of interpreting emotion. Conventional SER systems rely on aggregated annotations, which often overlook individual subtleties and lead to inconsistent predictions. In contrast, Meta-PerSER leverages a Model-Agnostic Meta-Learning (MAML) approach enhanced with Combined-Set Meta-Training, Derivative Annealing, and per-layer per-step learning rates, enabling rapid adaptation with only a few labeled examples. By integrating robust representations from pre-trained self-supervised models, our framework first captures general emotional cues and then fine-tunes itself to personal annotation styles. Experiments on the IEMOCAP corpus demonstrate that Meta-PerSER significantly outperforms baseline methods in both seen and unseen data scenarios, highlighting its promise for personalized emotion recognition.
- Abstract(参考訳): 本稿では,各聴取者の独自の感情解釈方法に適応させることで,音声感情認識(SER)をパーソナライズする新しいメタ学習フレームワークであるMeta-PerSERを紹介する。
従来のSERシステムは集約アノテーションに依存しており、しばしば個々の微妙さを見落とし、矛盾した予測をもたらす。
対照的に、Meta-PerSERはモデル非依存のメタラーニング(MAML)アプローチを活用し、いくつかのラベル付き例で迅速に適応できる。
事前学習した自己教師付きモデルからの堅牢な表現を統合することで、まず一般的な感情的手がかりを捉え、それから個人的アノテーションスタイルに微調整する。
IEMOCAPコーパスの実験では、Meta-PerSERは、目に見えないデータシナリオと見えないデータシナリオの両方において、ベースラインメソッドを大幅に上回っており、パーソナライズされた感情認識の約束を強調している。
関連論文リスト
- Contrastive Decoupled Representation Learning and Regularization for Speech-Preserving Facial Expression Manipulation [58.189703277322224]
音声保存表情操作(SPFEM)は、特定の参照感情を表示するために話頭を変更することを目的としている。
参照およびソース入力に存在する感情とコンテンツ情報は、SPFEMモデルに対して直接的かつ正確な監視信号を提供することができる。
コントラスト学習による指導として、コンテンツと感情の事前学習を提案し、分離されたコンテンツと感情表現を学習する。
論文 参考訳(メタデータ) (2025-04-08T04:34:38Z) - BeMERC: Behavior-Aware MLLM-based Framework for Multimodal Emotion Recognition in Conversation [29.514459004019024]
本稿では,ビニラMLLMに基づくMERCモデルに話者の振る舞いを組み込む行動認識型MLLMベースのフレームワーク(BeMERC)を提案する。
BeMERCは2つのベンチマークデータセットの最先端手法よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2025-03-31T12:04:53Z) - MSAC: Multiple Speech Attribute Control Method for Reliable Speech Emotion Recognition [7.81011775615268]
シングルコーパスとクロスコーパスSERの両方を同時に処理できる新しい統合SERフレームワークであるMSAC-SERNetを紹介する。
様々な音声属性間の情報重なりを考慮し、異なる音声属性の相関に基づく新しい学習パラダイムを提案する。
シングルコーパスSERシナリオとクロスコーパスSERシナリオの両方の実験は、MSAC-SERNetが最先端SERアプローチと比較して優れた性能を発揮することを示している。
論文 参考訳(メタデータ) (2023-08-08T03:43:24Z) - Contrastive Meta-Learning for Partially Observable Few-Shot Learning [5.363168481735953]
本稿では,部分的な観察から統一表現を学習することの問題点について考察する。
我々はこれを確率論的形式主義(probabilistic formalism)を通じてアプローチし、ビューが異なるコンポーネントで異なるレベルの不確実性を持つ表現にマップできるようにする。
我々のアプローチである部分観察エキスパートモデリング(POEM)は、部分観察からメタ学習した一貫した表現を可能にする。
論文 参考訳(メタデータ) (2023-01-30T18:17:24Z) - Rethinking the Learning Paradigm for Facial Expression Recognition [56.050738381526116]
既存のトレーニングパラダイムを再考し、弱い教師付き戦略を用いて、オリジナルの曖昧なアノテーションでFERモデルをトレーニングする方がよいと提案する。
本稿では、弱教師付き戦略を用いて、オリジナルの曖昧なアノテーションでFERモデルを訓練した方がよいと論じる。
論文 参考訳(メタデータ) (2022-09-30T12:00:54Z) - Sentiment-Aware Automatic Speech Recognition pre-training for enhanced
Speech Emotion Recognition [11.760166084942908]
音声感情認識(SER)のためのマルチタスク事前学習手法を提案する。
自動音声認識(ASR)と感情分類タスクでSERモデルを同時に訓練する。
我々は、公開されているデータに基づいて訓練されたテキスト・トゥ・センチメント・モデルを用いて感情分類のターゲットを生成する。
論文 参考訳(メタデータ) (2022-01-27T22:20:28Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Meta-Learning with Variational Semantic Memory for Word Sense
Disambiguation [56.830395467247016]
メタ学習環境におけるWSDのセマンティックメモリモデルを提案する。
我々のモデルは階層的変動推論に基づいており、ハイパーネットワークを介して適応的なメモリ更新ルールを組み込んでいる。
極めて少ないシナリオでの効果的な学習を支援するために,本モデルがWSDで最先端の技術を数ショットで実現していることを示す。
論文 参考訳(メタデータ) (2021-06-05T20:40:01Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。