論文の概要: Test-Time Adaptation for Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2601.16240v1
- Date: Wed, 21 Jan 2026 23:45:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.35922
- Title: Test-Time Adaptation for Speech Emotion Recognition
- Title(参考訳): 音声感情認識のためのテスト時間適応
- Authors: Jiaheng Dong, Hong Jia, Ting Dang,
- Abstract要約: テスト時間適応(TTA)は、未ラベルのターゲットデータのみを使用して推論時にモデルを適用することでギャップを埋める。
本稿では,3つのSERタスクにまたがる11のTTA手法について,最初の体系的評価と比較を行った。
その結果,バックプロパゲーションフリーなTTA法が最も有望であることが示唆された。
一つの方法が普遍的に排他的であり、その効果は分布シフトやタスクに大きく依存する。
- 参考スコア(独自算出の注目度): 8.729816363600348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The practical utility of Speech Emotion Recognition (SER) systems is undermined by their fragility to domain shifts, such as speaker variability, the distinction between acted and naturalistic emotions, and cross-corpus variations. While domain adaptation and fine-tuning are widely studied, they require either source data or labelled target data, which are often unavailable or raise privacy concerns in SER. Test-time adaptation (TTA) bridges this gap by adapting models at inference using only unlabeled target data. Yet, having been predominantly designed for image classification and speech recognition, the efficacy of TTA for mitigating the unique domain shifts in SER has not been investigated. In this paper, we present the first systematic evaluation and comparison covering 11 TTA methods across three representative SER tasks. The results indicate that backpropagation-free TTA methods are the most promising. Conversely, entropy minimization and pseudo-labeling generally fail, as their core assumption of a single, confident ground-truth label is incompatible with the inherent ambiguity of emotional expression. Further, no single method universally excels, and its effectiveness is highly dependent on the distributional shifts and tasks.
- Abstract(参考訳): 音声感情認識(SER)システムの実用性は、話者の多様性、行動的感情と自然主義感情の区別、体間変動などのドメインシフトに対する脆弱さによって損なわれている。
ドメイン適応と微調整は広く研究されているが、ソースデータかラベル付けされたターゲットデータが必要である。
テスト時間適応(TTA)は、未ラベルのターゲットデータのみを使用して推論時にモデルを適用することで、このギャップを埋める。
しかし,画像分類や音声認識のために主に設計されているため,SERにおけるドメインシフトを緩和するためのTTAの有効性は検討されていない。
本稿では,3つのSERタスクにまたがる11のTTA手法について,最初の体系的評価と比較を行った。
その結果,バックプロパゲーションフリーなTTA法が最も有望であることが示唆された。
逆に、エントロピーの最小化と擬似ラベル化は一般的に失敗する。
さらに、単一の方法が普遍的に優れているわけではなく、その効果は分散シフトやタスクに大きく依存する。
関連論文リスト
- EMO-Debias: Benchmarking Gender Debiasing Techniques in Multi-Label Speech Emotion Recognition [49.27067541740956]
EMO-Debiasは、マルチラベルSERに適用された13のデバイアス手法の大規模比較である。
本研究は, 事前処理, 正規化, 逆学習, バイアス学習者, 分散的ロバストな最適化といった手法を含む。
本分析は公平性と正確性の間のトレードオフを定量化し,どのアプローチが一貫して性差を減少させるのかを同定する。
論文 参考訳(メタデータ) (2025-06-05T05:48:31Z) - Towards Practical Emotion Recognition: An Unsupervised Source-Free Approach for EEG Domain Adaptation [0.5755004576310334]
本稿では,領域間における脳波に基づく感情分類のための新しいSF-UDA手法を提案する。
本稿では,Dual-Loss Adaptive Regularization (DLAR)を導入し,予測誤差を最小化し,予測を疑似ラベルと整合させる。
我々の手法は最先端の手法よりも優れており、DEAでトレーニングし、SEEDでテストすると65.84%の精度が達成される。
論文 参考訳(メタデータ) (2025-03-26T14:29:20Z) - Self-supervised Gait-based Emotion Representation Learning from Selective Strongly Augmented Skeleton Sequences [4.740624855896404]
自己教師型歩行に基づく感情表現のための選択的強強化を利用したコントラスト学習フレームワークを提案する。
提案手法はEmotion-Gait (E-Gait) と Emilya のデータセットで検証され, 異なる評価プロトコル下での最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-05-08T09:13:10Z) - MSAC: Multiple Speech Attribute Control Method for Reliable Speech Emotion Recognition [7.81011775615268]
シングルコーパスとクロスコーパスSERの両方を同時に処理できる新しい統合SERフレームワークであるMSAC-SERNetを紹介する。
様々な音声属性間の情報重なりを考慮し、異なる音声属性の相関に基づく新しい学習パラダイムを提案する。
シングルコーパスSERシナリオとクロスコーパスSERシナリオの両方の実験は、MSAC-SERNetが最先端SERアプローチと比較して優れた性能を発揮することを示している。
論文 参考訳(メタデータ) (2023-08-08T03:43:24Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Multimodal Emotion Recognition with Modality-Pairwise Unsupervised
Contrastive Loss [80.79641247882012]
マルチモーダル感情認識(MER)のための教師なし特徴学習に着目した。
個別の感情を考慮し、モダリティテキスト、音声、視覚が使用される。
本手法は, 対のモダリティ間のコントラスト損失に基づくもので, MER文学における最初の試みである。
論文 参考訳(メタデータ) (2022-07-23T10:11:24Z) - Balancing Discriminability and Transferability for Source-Free Domain
Adaptation [55.143687986324935]
従来のドメイン適応(DA)技術は、ドメイン不変表現を学習することでドメイン転送性を改善することを目的としている。
ラベル付けされたソースとラベル付けされていないターゲットへの同時アクセス要件は、ソースフリーなDA設定に適さない。
そこで本研究では,原文と翻訳サンプルの混在が識別可能性と伝達可能性のトレードオフを促進することを示す新しい知見を導出する。
論文 参考訳(メタデータ) (2022-06-16T09:06:22Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z) - Estimating the Uncertainty in Emotion Class Labels with
Utterance-Specific Dirichlet Priors [24.365876333182207]
本稿では,発話ごとのディリクレの事前分布に基づく新たな訓練損失を提案する。
ラベル付けの不確かさの高い試験発話を検出することで、さらなる測定値を用いて性能を評価する。
広く使われているIEMOCAPデータセットによる実験は、2分岐構造が最先端の分類結果を達成することを示した。
論文 参考訳(メタデータ) (2022-03-08T23:30:01Z) - Unsupervised Domain Adaptation for Speech Recognition via Uncertainty
Driven Self-Training [55.824641135682725]
WSJ をソースドメインとし,TED-Lium 3 とSWITCHBOARD を併用したドメイン適応実験を行った。
論文 参考訳(メタデータ) (2020-11-26T18:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。