論文の概要: Enhancing Speech Emotion Recognition via Fine-Tuning Pre-Trained Models and Hyper-Parameter Optimisation
- arxiv url: http://arxiv.org/abs/2510.07052v1
- Date: Wed, 08 Oct 2025 14:20:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.546282
- Title: Enhancing Speech Emotion Recognition via Fine-Tuning Pre-Trained Models and Hyper-Parameter Optimisation
- Title(参考訳): 微調整事前学習モデルによる音声感情認識の強化とハイパーパラメータ最適化
- Authors: Aryan Golbaghi, Shuo Zhou,
- Abstract要約: 本稿では,事前学習された表現とHPO戦略を用いた音声感情認識のためのワークフローを提案する。
実験は、32GBのRAMを持つ8つのCPUコアで動作する。
言語間の一般化のために、EmoDBで訓練されたHPOチューニングモデルでは、CREMA-Dでは0.25、RAVDESSでは0.26のゼロショット精度が向上している。
- 参考スコア(独自算出の注目度): 3.313347968067735
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose a workflow for speech emotion recognition (SER) that combines pre-trained representations with automated hyperparameter optimisation (HPO). Using SpeechBrain wav2vec2-base model fine-tuned on IEMOCAP as the encoder, we compare two HPO strategies, Gaussian Process Bayesian Optimisation (GP-BO) and Tree-structured Parzen Estimators (TPE), under an identical four-dimensional search space and 15-trial budget, with balanced class accuracy (BCA) on the German EmoDB corpus as the objective. All experiments run on 8 CPU cores with 32 GB RAM. GP-BO achieves 0.96 BCA in 11 minutes, and TPE (Hyperopt implementation) attains 0.97 in 15 minutes. In contrast, grid search requires 143 trials and 1,680 minutes to exceed 0.9 BCA, and the best AutoSpeech 2020 baseline reports only 0.85 in 30 minutes on GPU. For cross-lingual generalisation, an EmoDB-trained HPO-tuned model improves zero-shot accuracy by 0.25 on CREMA-D and 0.26 on RAVDESS. Results show that efficient HPO with pre-trained encoders delivers competitive SER on commodity CPUs. Source code to this work is available at: https://github.com/youngaryan/speechbrain-emotion-hpo.
- Abstract(参考訳): 本稿では,事前学習した表現と自動ハイパーパラメータ最適化(HPO)を組み合わせた音声感情認識(SER)のワークフローを提案する。
我々は,IEMOCAPを符号化器として微調整したSpeechBrain wav2vec2ベースモデルを用いて,ドイツのEmoDBコーパス上で,同一の4次元探索空間と15次元予算の下で,Gaussian Process Bayesian Optimisation (GP-BO)とTree-structured Parzen Estimators (TPE)の2つのHPO戦略を比較した。
すべての実験は、32GBのRAMを持つ8つのCPUコアで動作する。
GP-BOは11分で0.96BCA、TPE(Hyperopt実装)は15分で0.97BCAに達する。
対照的に、グリッドサーチでは、0.9 BCAを超えるためには143のトライアルと1,680分を要する。
言語間の一般化のために、EmoDBで訓練されたHPOチューニングモデルでは、CREMA-Dでは0.25、RAVDESSでは0.26のゼロショット精度が向上している。
その結果,事前学習したエンコーダを用いた効率的なHPOは,コモディティCPU上での競合SERを実現することがわかった。
この作業のソースコードは、https://github.com/youngaryan/speechbrain-emotion-hpo.comで公開されている。
関連論文リスト
- Efficient Hate Speech Detection: A Three-Layer LoRA-Tuned BERTweet Framework [0.0]
本稿では,計算効率のよいヘイトスピーチ検出システムを開発する上での課題について述べる。
ルールベースの事前フィルタリングとパラメータ効率の高いLoRA調整BERTweetモデルを組み合わせた新しい3層フレームワークを提案する。
我々の手法はSafePhiのような最先端の大規模言語モデルの性能の94%を達成している。
論文 参考訳(メタデータ) (2025-11-08T15:47:18Z) - ULTHO: Ultra-Lightweight yet Efficient Hyperparameter Optimization in Deep Reinforcement Learning [50.53705050673944]
ULTHOは,1回の走行で深部RLで高速HPOを実現するための,超軽量で強力なフレームワークである。
具体的には、HPOプロセスは、クラスタ化されたアーム(MABC)を備えたマルチアームバンディットとして定式化し、それを長期の戻り値の最適化に直接リンクする。
ALE、Procgen、MiniGrid、PyBulletなどのベンチマークでULTHOをテストする。
論文 参考訳(メタデータ) (2025-03-08T07:03:43Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - A Lipschitz Bandits Approach for Continuous Hyperparameter Optimization [6.572589601317779]
BLiEは、目的関数のリプシッツ連続性のみを仮定するリプシッツ帯域に基づくHPOアルゴリズムである。
経験的に、BLiEはベンチマークタスクにおいて最先端のHPOアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-02-03T04:30:17Z) - A New Linear Scaling Rule for Private Adaptive Hyperparameter Optimization [57.450449884166346]
本稿では,HPOのプライバシコストを考慮した適応型HPO法を提案する。
我々は22のベンチマークタスク、コンピュータビジョンと自然言語処理、事前学習と微調整で最先端のパフォーマンスを得る。
論文 参考訳(メタデータ) (2022-12-08T18:56:37Z) - Asynchronous Decentralized Bayesian Optimization for Large Scale
Hyperparameter Optimization [13.89136187674851]
BOでは、パラメータ構成と性能の関係を学習するために、計算的に安価にサロゲートモデルを用いる。
本稿では非同期分散BOを提案する。各ワーカーがシーケンシャルBOを実行し、その結果を共有ストレージを介して非同期に通信する。
計算効率を損なうことなく,作業者の95%以上を並列作業者1,920名に拡張する。
論文 参考訳(メタデータ) (2022-07-01T15:07:56Z) - Towards Learning Universal Hyperparameter Optimizers with Transformers [57.35920571605559]
我々は,テキストベースのトランスフォーマーHPOフレームワークであるOptFormerを紹介した。
実験の結果,OptFormerは少なくとも7種類のHPOアルゴリズムを模倣できることがわかった。
論文 参考訳(メタデータ) (2022-05-26T12:51:32Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Virtuoso: Video-based Intelligence for real-time tuning on SOCs [24.086595996055074]
Underlying Virtuosoはマルチブランチ実行カーネルで、精度-エネルギー-遅延軸の異なる動作ポイントで実行することができる。
我々は、Faster R-CNN (FRCNN)、YOLO v3、SSD、EfficientDet、SELSA、MEGA、REPP、FastAdapt、およびFRCNN+、YOLO+、SSD+、EfficientDet+を含む15の最先端または広く使用されているプロトコルをベンチマークする。
論文 参考訳(メタデータ) (2021-12-24T14:47:41Z) - Genealogical Population-Based Training for Hyperparameter Optimization [1.0514231683620516]
本研究では,計算コストの2倍から3倍に削減できることを実験的に実証した。
本手法は探索アルゴリズムであり,内部探索ルーチンをTPE,GP,CMA,ランダム探索などの任意の探索アルゴリズムにすることができる。
論文 参考訳(メタデータ) (2021-09-30T08:49:41Z) - Real-Time Execution of Large-scale Language Models on Mobile [49.32610509282623]
BERTの最良のモデル構造は,特定のデバイスに適合する計算サイズである。
我々のフレームワークは、モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすための特定モデルを保証することができる。
具体的には、当社のモデルはCPUでは5.2倍、GPUでは4.1倍、BERTベースでは0.5-2%の精度損失がある。
論文 参考訳(メタデータ) (2020-09-15T01:59:17Z) - HyperSTAR: Task-Aware Hyperparameters for Deep Networks [52.50861379908611]
HyperSTARは、ディープニューラルネットワークのためのHPOをウォームスタートするタスク認識方式である。
生の画像から直接、データセット(タスク)表現とパフォーマンス予測器を学習する。
既存のメソッドと比較して、最高のパフォーマンスを達成するために、構成を50%少なく評価する。
論文 参考訳(メタデータ) (2020-05-21T08:56:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。