論文の概要: Re-Parameterization of Lightweight Transformer for On-Device Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2411.09339v1
- Date: Thu, 14 Nov 2024 10:36:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:23:55.477638
- Title: Re-Parameterization of Lightweight Transformer for On-Device Speech Emotion Recognition
- Title(参考訳): オンデバイス音声認識のための軽量変圧器の再パラメータ化
- Authors: Zixing Zhang, Zhongren Dong, Weixiang Xu, Jing Han,
- Abstract要約: 軽量トランスフォーマーモデルの性能向上のための新しい手法であるTransformer Re-パラメータ化を導入する。
実験の結果,提案手法は軽量トランスフォーマーの性能を常に改善し,大規模モデルに匹敵する性能を示した。
- 参考スコア(独自算出の注目度): 10.302458835329539
- License:
- Abstract: With the increasing implementation of machine learning models on edge or Internet-of-Things (IoT) devices, deploying advanced models on resource-constrained IoT devices remains challenging. Transformer models, a currently dominant neural architecture, have achieved great success in broad domains but their complexity hinders its deployment on IoT devices with limited computation capability and storage size. Although many model compression approaches have been explored, they often suffer from notorious performance degradation. To address this issue, we introduce a new method, namely Transformer Re-parameterization, to boost the performance of lightweight Transformer models. It consists of two processes: the High-Rank Factorization (HRF) process in the training stage and the deHigh-Rank Factorization (deHRF) process in the inference stage. In the former process, we insert an additional linear layer before the Feed-Forward Network (FFN) of the lightweight Transformer. It is supposed that the inserted HRF layers can enhance the model learning capability. In the later process, the auxiliary HRF layer will be merged together with the following FFN layer into one linear layer and thus recover the original structure of the lightweight model. To examine the effectiveness of the proposed method, we evaluate it on three widely used Transformer variants, i.e., ConvTransformer, Conformer, and SpeechFormer networks, in the application of speech emotion recognition on the IEMOCAP, M3ED and DAIC-WOZ datasets. Experimental results show that our proposed method consistently improves the performance of lightweight Transformers, even making them comparable to large models. The proposed re-parameterization approach enables advanced Transformer models to be deployed on resource-constrained IoT devices.
- Abstract(参考訳): エッジやIoT(Internet-of-Things)デバイス上でのマシンラーニングモデルの実装の増加に伴い、リソース制約のあるIoTデバイスに高度なモデルをデプロイすることは、依然として困難である。
現在支配的なニューラルネットワークアーキテクチャであるTransformerモデルは、幅広いドメインで大きな成功を収めているが、その複雑さにより、計算能力とストレージサイズが制限されたIoTデバイスへのデプロイメントが妨げられている。
多くのモデル圧縮アプローチが検討されているが、悪名高い性能劣化に悩まされることが多い。
この問題に対処するため,軽量トランスフォーマーモデルの性能向上を目的としたTransformer Re-parameterization法を提案する。
このプロセスは、トレーニング段階におけるHigh-Rank Factorization(HRF)プロセスと、推論段階におけるdeHigh-Rank Factorization(deHRF)プロセスの2つのプロセスで構成されている。
前者のプロセスでは,軽量トランスのFeed-Forward Network (FFN) の前に線形層を挿入する。
挿入されたHRF層はモデル学習能力を高めることができると考えられる。
後続のプロセスでは、補助HRF層と後続のFFN層を1つの線形層に結合し、軽量モデルの原構造を復元する。
提案手法の有効性を検討するため,IEMOCAP,M3ED,DAIC-WOZデータセットに対する音声感情認識の適用において,ConvTransformer,Conformer,SpeechFormerの3種類の変種を用いて評価を行った。
実験の結果,提案手法は軽量トランスフォーマーの性能を常に改善し,大規模モデルに匹敵する性能を示した。
提案された再パラメータ化アプローチにより、高度なTransformerモデルをリソース制約のあるIoTデバイスにデプロイすることができる。
関連論文リスト
- Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - Research on Personalized Compression Algorithm for Pre-trained Models Based on Homomorphic Entropy Increase [2.6513322539118582]
我々は、現在のAI分野における2つの重要な技術の課題と進化を探求する:ビジョントランスフォーマーモデルと大規模言語モデル(LLM)。
Vision Transformerは、イメージを小さな断片に分割することで、グローバルな情報をキャプチャするが、その高い参照数とモバイル機器へのオーバヘッド制限の配置を計算する。
LLMは自然言語処理に革命をもたらしたが、デプロイメントの課題にも直面している。
論文 参考訳(メタデータ) (2024-08-16T11:56:49Z) - A-SDM: Accelerating Stable Diffusion through Model Assembly and Feature Inheritance Strategies [51.7643024367548]
安定拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)生成のための一般的かつ効果的なモデルである。
本研究では、SDMにおける冗長計算の削減と、チューニング不要とチューニング不要の両方の手法によるモデルの最適化に焦点をあてる。
論文 参考訳(メタデータ) (2024-05-31T21:47:05Z) - Training Transformer Models by Wavelet Losses Improves Quantitative and Visual Performance in Single Image Super-Resolution [6.367865391518726]
トランスフォーマーベースモデルは、画像超解像(SR)を含む低レベル視覚タスクにおいて顕著な結果を得た
グローバルにより多くの入力ピクセルを活性化するために、ハイブリッドアテンションモデルが提案されている。
ウェーブレット損失を利用してTransformerモデルをトレーニングし、定量的および主観的性能を向上させる。
論文 参考訳(メタデータ) (2024-04-17T11:25:19Z) - Converting Transformers to Polynomial Form for Secure Inference Over
Homomorphic Encryption [45.00129952368691]
ホモモルフィック暗号化(HE)は、ディープラーニングにおける最も有望なアプローチの1つである。
変換器を用いたHE上でのセキュアな推論のデモンストレーションとして,第1回変換器を紹介する。
我々のモデルは従来の手法に匹敵する結果をもたらし、同様のスケールのトランスフォーマーで性能ギャップを埋め、最先端のアプリケーションでHEが実現可能であることを裏付ける。
論文 参考訳(メタデータ) (2023-11-15T00:23:58Z) - Unfolding Once is Enough: A Deployment-Friendly Transformer Unit for
Super-Resolution [16.54421804141835]
SISRモデルの中間機能の高解像度化は、メモリと計算要求を増加させる。
本稿では、SISRタスクのためのデプロイメントフレンドリな内部パッチ変換ネットワーク(DITN)を提案する。
我々のモデルは、質的かつ定量的な性能と高いデプロイメント効率で競合する結果を得ることができる。
論文 参考訳(メタデータ) (2023-08-05T05:42:51Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。