論文の概要: Efficient Finetuning for Dimensional Speech Emotion Recognition in the Age of Transformers
- arxiv url: http://arxiv.org/abs/2503.03756v1
- Date: Mon, 17 Feb 2025 22:34:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-09 04:18:58.705993
- Title: Efficient Finetuning for Dimensional Speech Emotion Recognition in the Age of Transformers
- Title(参考訳): 変圧器時代における3次元音声感情認識のための効率的なファインタニング
- Authors: Aneesha Sampath, James Tavernor, Emily Mower Provost,
- Abstract要約: Wav2Vec 2.0のような大規模で事前訓練されたトランスフォーマーモデルは、かなりの計算資源を必要とする。
本稿では, フル微調整, 変圧器層の部分微調整, 混合精度のファイン微調整, キャッシングによる部分微調整, ローランク適応 (LoRA) など, 様々なファイン微調整技術を提案する。
その結果, 完全微調整に匹敵する性能は71%, トレーニング速度は67%向上した。
我々は、性能とトレーニング効率のバランスをとるために、最後の3つの変圧器層を混合精度で微調整し、最小性能のトレードオフで最適な速度に中間表現キャッシングを追加することを推奨する。
- 参考スコア(独自算出の注目度): 7.1394038985662664
- License:
- Abstract: Accurate speech emotion recognition is essential for developing human-facing systems. Recent advancements have included finetuning large, pretrained transformer models like Wav2Vec 2.0. However, the finetuning process requires substantial computational resources, including high-memory GPUs and significant processing time. As the demand for accurate emotion recognition continues to grow, efficient finetuning approaches are needed to reduce the computational burden. Our study focuses on dimensional emotion recognition, predicting attributes such as activation (calm to excited) and valence (negative to positive). We present various finetuning techniques, including full finetuning, partial finetuning of transformer layers, finetuning with mixed precision, partial finetuning with caching, and low-rank adaptation (LoRA) on the Wav2Vec 2.0 base model. We find that partial finetuning with mixed precision achieves performance comparable to full finetuning while increasing training speed by 67%. Caching intermediate representations further boosts efficiency, yielding an 88% speedup and a 71% reduction in learnable parameters. We recommend finetuning the final three transformer layers in mixed precision to balance performance and training efficiency, and adding intermediate representation caching for optimal speed with minimal performance trade-offs. These findings lower the barriers to finetuning speech emotion recognition systems, making accurate emotion recognition more accessible to a broader range of researchers and practitioners.
- Abstract(参考訳): 正確な音声の感情認識は、人間向けシステムの開発に不可欠である。
近年の進歩には、Wav2Vec 2.0のような大型で訓練済みのトランスフォーマーモデルが含まれる。
しかし、微調整プロセスは、高メモリのGPUや処理時間など、かなりの計算資源を必要とする。
正確な感情認識の需要が高まるにつれて、計算負担を軽減するために効率的な微調整手法が必要である。
本研究は,アクティベーション(興奮度)やヴァレンス(ポジティブ度)などの属性を予測し,次元的感情認識に焦点を当てた。
We present various finetuning technique, including full finetuning, partial finetuning of transformer layer, finetuning with mixed precision, partial finetuning with cache, and low-rank adaptation (LoRA) on the Wav2Vec 2.0 base model。
その結果, 完全微調整に匹敵する性能を達成し, トレーニング速度を67%向上させることができた。
中間表現のキャッシングは効率をさらに向上させ、学習可能なパラメータの88%の高速化と71%の削減をもたらす。
我々は、性能とトレーニング効率のバランスをとるために、最後の3つの変圧器層を混合精度で微調整し、最小性能のトレードオフで最適な速度に中間表現キャッシングを追加することを推奨する。
これらの知見は、音声の感情認識システムを微調整する際の障壁を低くし、より広い範囲の研究者や実践者に対して正確な感情認識をよりアクセスしやすくする。
関連論文リスト
- BEExformer: A Fast Inferencing Transformer Architecture via Binarization with Multiple Early Exits [2.7651063843287718]
トランスフォーマーに基づく大規模言語モデル(LLM)は、様々なアプリケーションで最先端の結果を得る。
様々な効率の考慮事項の中で、モデルバイナライゼーションとEarly Exit(EE)は一般的な有効解である。
本稿では,最初の選択型学習変圧器アーキテクチャであるBinarized Early Exit Transformer (BEExformer)を提案する。
論文 参考訳(メタデータ) (2024-12-06T17:58:14Z) - Searching for Effective Preprocessing Method and CNN-based Architecture with Efficient Channel Attention on Speech Emotion Recognition [0.0]
音声感情認識(SER)は、人間の感情をコンピュータモデルで分類する。
本稿では,効率的なチャネルアテンション(ECA)を用いた6層畳み込みニューラルネットワーク(CNN)モデルを提案する。
対話型感情的動的モーションキャプチャー(IEMOCAP)データセットでは、前処理による感情音声の周波数分解能が向上し、感情認識性能が向上する。
論文 参考訳(メタデータ) (2024-09-06T03:17:25Z) - ReduceFormer: Attention with Tensor Reduction by Summation [4.985969607297595]
注意を払って効率よく最適化されたモデルのファミリーであるReduceeFormerを紹介します。
ReduceFormerは、reduceやement-wise multiplicationといった単純な操作のみを活用するため、アーキテクチャが大幅に単純化され、推論性能が向上した。
提案するモデルファミリは,計算資源とメモリ帯域幅が限られているエッジデバイスや,高いスループットを求めるクラウドコンピューティングに適している。
論文 参考訳(メタデータ) (2024-06-11T17:28:09Z) - Parameter Efficient Finetuning for Speech Emotion Recognition and Domain
Adaptation [13.774287532165019]
本稿では,音声感情認識(SER)のためのパラメータ係数ファインタニング(PEFT)について検討する。
様々なPEFT適応器は、離散的な感情カテゴリーの分類と次元的な感情特性の予測の両方のために体系的に研究されている。
行動感情データに基づいて訓練されたモデルに適応する2段階適応戦略を提案する。
論文 参考訳(メタデータ) (2024-02-19T00:21:07Z) - Persian Speech Emotion Recognition by Fine-Tuning Transformers [1.0152838128195467]
本稿では,2つのモデルについて述べる。1つはスペクトログラムに基づくもので,もう1つは音声自体に基づいて,shEMOデータセットを用いて微調整を行う。
これらのモデルは以前のシステムの精度を大幅に向上させ、約65%から80%まで向上させた。
微調整過程における多言語性の影響を調べるため、これらのモデルは同じものを2回微調整する。
論文 参考訳(メタデータ) (2024-02-11T23:23:31Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。
ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文 参考訳(メタデータ) (2022-11-30T05:31:45Z) - DIVISION: Memory Efficient Training via Dual Activation Precision [60.153754740511864]
最先端の研究は、量子化ビット幅の探索とトレーニングを組み合わせることで、手順を複雑にし、透明性を損なう。
そこで本研究では,DNNトレーニングを簡易かつ効果的に圧縮する手法を提案する。
実験結果によると、DIVISIONは10倍以上のアクティベーションマップの圧縮や、モデルの精度を損なうことなく、競争訓練のスループットなど、最先端の手法よりも総合的な性能を示している。
論文 参考訳(メタデータ) (2022-08-05T03:15:28Z) - AdaViT: Adaptive Vision Transformers for Efficient Image Recognition [78.07924262215181]
AdaViTは、パッチ、セルフアテンションヘッド、およびトランスフォーマーブロックを使用するための利用ポリシーを導出する適応フレームワークである。
本手法は,0.8%の精度で,最先端のビジョントランスに比べて2倍以上の効率向上を実現している。
論文 参考訳(メタデータ) (2021-11-30T18:57:02Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。