論文の概要: EMO-TTA: Improving Test-Time Adaptation of Audio-Language Models for Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2509.25495v1
- Date: Mon, 29 Sep 2025 20:52:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.317776
- Title: EMO-TTA: Improving Test-Time Adaptation of Audio-Language Models for Speech Emotion Recognition
- Title(参考訳): EMO-TTA:音声感情認識のための音声言語モデルのテスト時間適応の改善
- Authors: Jiacheng Shi, Hongfei Du, Y. Alicia Hong, Ye Gao,
- Abstract要約: 音声言語モデル(ALM)を用いた音声感情認識(SER)は、テスト時の分散シフトに対して脆弱なままである。
クラス条件統計を漸進的に更新する軽量でトレーニング不要な適応フレームワークであるEmo-TTAを提案する。
Emo-TTAは、モデルウェイトを変更することなく、個々のテストサンプルで動作する。
- 参考スコア(独自算出の注目度): 3.1649536621597973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech emotion recognition (SER) with audio-language models (ALMs) remains vulnerable to distribution shifts at test time, leading to performance degradation in out-of-domain scenarios. Test-time adaptation (TTA) provides a promising solution but often relies on gradient-based updates or prompt tuning, limiting flexibility and practicality. We propose Emo-TTA, a lightweight, training-free adaptation framework that incrementally updates class-conditional statistics via an Expectation-Maximization procedure for explicit test-time distribution estimation, using ALM predictions as priors. Emo-TTA operates on individual test samples without modifying model weights. Experiments on six out-of-domain SER benchmarks show consistent accuracy improvements over prior TTA baselines, demonstrating the effectiveness of statistical adaptation in aligning model predictions with evolving test distributions.
- Abstract(参考訳): 音声言語モデル(ALM)を用いた音声感情認識(SER)は、テスト時の分散シフトに対して脆弱であり、ドメイン外のシナリオではパフォーマンスが低下する。
テスト時適応(TTA)は、有望なソリューションを提供するが、しばしば勾配ベースの更新や、迅速なチューニング、柔軟性と実用性を制限することに依存している。
本研究では, ALM予測を先行として, 明示的なテスト時間分布推定のための期待最大化手法を用いて, クラス条件統計を漸進的に更新する軽量なトレーニングフリー適応フレームワークであるEmo-TTAを提案する。
Emo-TTAは、モデルウェイトを変更することなく、個々のテストサンプルで動作する。
6つのドメイン外のSERベンチマークの実験は、以前のTTAベースラインよりも一貫した精度の向上を示し、モデル予測と進化するテスト分布との整合性を示す。
関連論文リスト
- Active Test-Time Adaptation: Theoretical Analyses and An Algorithm [51.84691955495693]
テスト時間適応(TTA)は、教師なし設定でストリーミングテストデータの分散シフトに対処する。
完全TTA設定内に能動学習を統合する能動テスト時間適応(ATTA)の新たな問題設定を提案する。
論文 参考訳(メタデータ) (2024-04-07T22:31:34Z) - Test-Time Model Adaptation with Only Forward Passes [68.11784295706995]
テストタイム適応は、トレーニング済みのモデルを、潜在的に分布シフトのある未確認テストサンプルに適応させるのに有効であることが証明されている。
テスト時間フォワード最適化適応法(FOA)を提案する。
FOAは量子化された8ビットのViTで動作し、32ビットのViTで勾配ベースのTENTより優れ、ImageNet-Cで最大24倍のメモリ削減を実現する。
論文 参考訳(メタデータ) (2024-04-02T05:34:33Z) - SGEM: Test-Time Adaptation for Automatic Speech Recognition via
Sequential-Level Generalized Entropy Minimization [30.61075178799518]
テスト時間適応(TTA)法は、ソースデータなしで未ラベルのテストインスタンスに事前学習されたASRモデルを適用するために最近提案されている。
我々は、一般的なASRモデルに対して、SGEMと呼ばれる新しいTTAフレームワークを提案する。
SGEMは、ドメインシフトの異なる3つのメインストリームASRモデルの最先端性能を達成する。
論文 参考訳(メタデータ) (2023-06-03T02:27:08Z) - A Comprehensive Survey on Test-Time Adaptation under Distribution Shifts [117.72709110877939]
テスト時間適応(TTA)は、事前訓練されたモデルをテスト中に、予測する前にラベルのないデータに適応する可能性がある。
TTAはテスト時間領域適応、テスト時間バッチ適応、オンラインテスト時間適応といったテストデータの形態に基づいて、いくつかの異なるグループに分類される。
論文 参考訳(メタデータ) (2023-03-27T16:32:21Z) - DELTA: degradation-free fully test-time adaptation [59.74287982885375]
テスト時間バッチ正規化(BN)や自己学習といった,一般的な適応手法では,2つの好ましくない欠陥が隠されていることがわかった。
まず、テスト時間BNにおける正規化統計は、現在受信されているテストサンプルに完全に影響され、その結果、不正確な推定結果が得られることを明らかにする。
第二に、テスト時間適応中にパラメータ更新が支配的なクラスに偏っていることを示す。
論文 参考訳(メタデータ) (2023-01-30T15:54:00Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。