Fugu-MT 論文翻訳(概要): Enhancing Speech Emotion Recognition via Fine-Tuning Pre-Trained Models and Hyper-Parameter Optimisation

論文の概要: Enhancing Speech Emotion Recognition via Fine-Tuning Pre-Trained Models and Hyper-Parameter Optimisation

arxiv url: http://arxiv.org/abs/2510.07052v1
Date: Wed, 08 Oct 2025 14:20:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-09 16:41:20.546282
Title: Enhancing Speech Emotion Recognition via Fine-Tuning Pre-Trained Models and Hyper-Parameter Optimisation
Title（参考訳）: 微調整事前学習モデルによる音声感情認識の強化とハイパーパラメータ最適化
Authors: Aryan Golbaghi, Shuo Zhou,
Abstract要約: 本稿では,事前学習された表現とHPO戦略を用いた音声感情認識のためのワークフローを提案する。実験は、32GBのRAMを持つ8つのCPUコアで動作する。言語間の一般化のために、EmoDBで訓練されたHPOチューニングモデルでは、CREMA-Dでは0.25、RAVDESSでは0.26のゼロショット精度が向上している。
参考スコア（独自算出の注目度）: 3.313347968067735
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We propose a workflow for speech emotion recognition (SER) that combines pre-trained representations with automated hyperparameter optimisation (HPO). Using SpeechBrain wav2vec2-base model fine-tuned on IEMOCAP as the encoder, we compare two HPO strategies, Gaussian Process Bayesian Optimisation (GP-BO) and Tree-structured Parzen Estimators (TPE), under an identical four-dimensional search space and 15-trial budget, with balanced class accuracy (BCA) on the German EmoDB corpus as the objective. All experiments run on 8 CPU cores with 32 GB RAM. GP-BO achieves 0.96 BCA in 11 minutes, and TPE (Hyperopt implementation) attains 0.97 in 15 minutes. In contrast, grid search requires 143 trials and 1,680 minutes to exceed 0.9 BCA, and the best AutoSpeech 2020 baseline reports only 0.85 in 30 minutes on GPU. For cross-lingual generalisation, an EmoDB-trained HPO-tuned model improves zero-shot accuracy by 0.25 on CREMA-D and 0.26 on RAVDESS. Results show that efficient HPO with pre-trained encoders delivers competitive SER on commodity CPUs. Source code to this work is available at: https://github.com/youngaryan/speechbrain-emotion-hpo.
Abstract（参考訳）: 本稿では,事前学習した表現と自動ハイパーパラメータ最適化(HPO)を組み合わせた音声感情認識(SER)のワークフローを提案する。我々は,IEMOCAPを符号化器として微調整したSpeechBrain wav2vec2ベースモデルを用いて,ドイツのEmoDBコーパス上で,同一の4次元探索空間と15次元予算の下で,Gaussian Process Bayesian Optimisation (GP-BO)とTree-structured Parzen Estimators (TPE)の2つのHPO戦略を比較した。すべての実験は、32GBのRAMを持つ8つのCPUコアで動作する。 GP-BOは11分で0.96BCA、TPE(Hyperopt実装)は15分で0.97BCAに達する。対照的に、グリッドサーチでは、0.9 BCAを超えるためには143のトライアルと1,680分を要する。言語間の一般化のために、EmoDBで訓練されたHPOチューニングモデルでは、CREMA-Dでは0.25、RAVDESSでは0.26のゼロショット精度が向上している。その結果,事前学習したエンコーダを用いた効率的なHPOは,コモディティCPU上での競合SERを実現することがわかった。この作業のソースコードは、https://github.com/youngaryan/speechbrain-emotion-hpo.comで公開されている。

関連論文リスト

ULTHO: Ultra-Lightweight yet Efficient Hyperparameter Optimization in Deep Reinforcement Learning [50.53705050673944]
ULTHOは,1回の走行で深部RLで高速HPOを実現するための,超軽量で強力なフレームワークである。具体的には、HPOプロセスは、クラスタ化されたアーム(MABC)を備えたマルチアームバンディットとして定式化し、それを長期の戻り値の最適化に直接リンクする。 ALE、Procgen、MiniGrid、PyBulletなどのベンチマークでULTHOをテストする。
論文参考訳（メタデータ） (2025-03-08T07:03:43Z)
Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文参考訳（メタデータ） (2024-05-01T17:59:20Z)
A Lipschitz Bandits Approach for Continuous Hyperparameter Optimization [6.572589601317779]
BLiEは、目的関数のリプシッツ連続性のみを仮定するリプシッツ帯域に基づくHPOアルゴリズムである。経験的に、BLiEはベンチマークタスクにおいて最先端のHPOアルゴリズムよりも優れていることを示す。
論文参考訳（メタデータ） (2023-02-03T04:30:17Z)
A New Linear Scaling Rule for Private Adaptive Hyperparameter Optimization [57.450449884166346]
本稿では,HPOのプライバシコストを考慮した適応型HPO法を提案する。我々は22のベンチマークタスク、コンピュータビジョンと自然言語処理、事前学習と微調整で最先端のパフォーマンスを得る。
論文参考訳（メタデータ） (2022-12-08T18:56:37Z)
Towards Learning Universal Hyperparameter Optimizers with Transformers [57.35920571605559]
我々は,テキストベースのトランスフォーマーHPOフレームワークであるOptFormerを紹介した。実験の結果,OptFormerは少なくとも7種類のHPOアルゴリズムを模倣できることがわかった。
論文参考訳（メタデータ） (2022-05-26T12:51:32Z)
Virtuoso: Video-based Intelligence for real-time tuning on SOCs [24.086595996055074]
Underlying Virtuosoはマルチブランチ実行カーネルで、精度-エネルギー-遅延軸の異なる動作ポイントで実行することができる。我々は、Faster R-CNN (FRCNN)、YOLO v3、SSD、EfficientDet、SELSA、MEGA、REPP、FastAdapt、およびFRCNN+、YOLO+、SSD+、EfficientDet+を含む15の最先端または広く使用されているプロトコルをベンチマークする。
論文参考訳（メタデータ） (2021-12-24T14:47:41Z)
Genealogical Population-Based Training for Hyperparameter Optimization [1.0514231683620516]
本研究では,計算コストの2倍から3倍に削減できることを実験的に実証した。本手法は探索アルゴリズムであり,内部探索ルーチンをTPE,GP,CMA,ランダム探索などの任意の探索アルゴリズムにすることができる。
論文参考訳（メタデータ） (2021-09-30T08:49:41Z)
Real-Time Execution of Large-scale Language Models on Mobile [49.32610509282623]
BERTの最良のモデル構造は,特定のデバイスに適合する計算サイズである。我々のフレームワークは、モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすための特定モデルを保証することができる。具体的には、当社のモデルはCPUでは5.2倍、GPUでは4.1倍、BERTベースでは0.5-2%の精度損失がある。
論文参考訳（メタデータ） (2020-09-15T01:59:17Z)
HyperSTAR: Task-Aware Hyperparameters for Deep Networks [52.50861379908611]
HyperSTARは、ディープニューラルネットワークのためのHPOをウォームスタートするタスク認識方式である。生の画像から直接、データセット(タスク)表現とパフォーマンス予測器を学習する。既存のメソッドと比較して、最高のパフォーマンスを達成するために、構成を50%少なく評価する。
論文参考訳（メタデータ） (2020-05-21T08:56:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。