論文の概要: Convexity-based Pruning of Speech Representation Models
- arxiv url: http://arxiv.org/abs/2408.11858v1
- Date: Fri, 16 Aug 2024 09:04:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 18:26:17.307920
- Title: Convexity-based Pruning of Speech Representation Models
- Title(参考訳): 凸性に基づく音声表現モデルのプルーニング
- Authors: Teresa Dorszewski, Lenka Tětková, Lars Kai Hansen,
- Abstract要約: 最近の研究によると、NLPのトランスモデルには大きな冗長性があることが示されている。
本稿では,音声モデルにおけるレイヤプルーニングについて検討する。
計算の労力が大幅に削減され、性能が損なわれず、場合によっては改善されることもない。
- 参考スコア(独自算出の注目度): 1.3873323883842132
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech representation models based on the transformer architecture and trained by self-supervised learning have shown great promise for solving tasks such as speech and speaker recognition, keyword spotting, emotion detection, and more. Typically, it is found that larger models lead to better performance. However, the significant computational effort involved in such large transformer systems is a challenge for embedded and real-world applications. Recent work has shown that there is significant redundancy in the transformer models for NLP and massive layer pruning is feasible (Sajjad et al., 2023). Here, we investigate layer pruning in audio models. We base the pruning decision on a convexity criterion. Convexity of classification regions has recently been proposed as an indicator of subsequent fine-tuning performance in a range of application domains, including NLP and audio. In empirical investigations, we find a massive reduction in the computational effort with no loss of performance or even improvements in certain cases.
- Abstract(参考訳): トランスフォーマーアーキテクチャをベースとし,自己教師付き学習によって訓練された音声表現モデルは,音声認識や話者認識,キーワードスポッティング,感情検出などのタスクを解く上で大きな可能性を示している。
一般的には、より大きなモデルによってパフォーマンスが向上する。
しかし、そのような大規模なトランスフォーマーシステムに関わる重要な計算努力は、組み込みおよび実世界のアプリケーションにとっての課題である。
近年の研究では、NLPの変圧器モデルには大きな冗長性があることが示されており、大規模層刈りは実現可能である(Sajjad et al , 2023)。
本稿では,音声モデルにおける層プルーニングについて検討する。
我々は凸度基準に基づいてプルーニングの判断を下す。
分類領域の凸性は、最近、NLPやオーディオを含む様々なアプリケーション領域において、その後の微調整性能の指標として提案されている。
実証的な調査では、一部のケースで性能や改善が失われることなく、計算作業が大幅に削減されることが判明した。
関連論文リスト
- How Redundant Is the Transformer Stack in Speech Representation Models? [1.3873323883842132]
自己教師付き音声表現モデルは、音声認識、話者識別、感情検出など様々なタスクにおいて顕著な性能を示した。
近年, 変圧器モデルの研究により, 層間に高い冗長性と, 重要な刈り取りの可能性が確認されている。
後処理を必要とせず,変換器を用いた音声表現モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-09-10T11:00:24Z) - Pivotal Auto-Encoder via Self-Normalizing ReLU [20.76999663290342]
トランスフォーメーション学習問題として,単一の隠蔽層スパースオートエンコーダを定式化する。
本稿では,テスト時の騒音レベルに不変な予測モデルを実現する最適化問題を提案する。
実験結果から, 各種ノイズに対する安定性が向上することが示唆された。
論文 参考訳(メタデータ) (2024-06-23T09:06:52Z) - X-Pruner: eXplainable Pruning for Vision Transformers [12.296223124178102]
ビジョントランスモデルは通常、計算コストと重いメモリ要求に悩まされる。
近年の研究では、モデルの内部単位と対象クラスとの関係を概観する、説明不能な方法で変圧器をプーンする手法が提案されている。
X-Prunerと呼ばれる新しい説明可能なプルーニングフレームワークを提案し、プルーニング基準の説明可能性を考慮して設計する。
論文 参考訳(メタデータ) (2023-03-08T23:10:18Z) - Robust representations of oil wells' intervals via sparse attention
mechanism [2.604557228169423]
正規化変換器(Reguformers)と呼ばれる効率的な変換器のクラスを導入する。
私たちの実験の焦点は、石油とガスのデータ、すなわちウェルログにあります。
このような問題に対する我々のモデルを評価するために、20以上の井戸からなるウェルログからなる産業規模のオープンデータセットで作業する。
論文 参考訳(メタデータ) (2022-12-29T09:56:33Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - PLATON: Pruning Large Transformer Models with Upper Confidence Bound of
Weight Importance [114.1541203743303]
本稿では,重要度推定の上位信頼度境界(UCB)による重要度スコアの不確かさを捉えるPLATONを提案する。
我々は、自然言語理解、質問応答、画像分類に関するトランスフォーマーモデルを用いて、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2022-06-25T05:38:39Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - Boosting Objective Scores of a Speech Enhancement Model by MetricGAN
Post-processing [18.19158404358494]
Transformerアーキテクチャは、多くの異なる自然言語処理アプリケーションにおいて、リカレントニューラルネットワークよりも優れた能力を示している。
本研究は音声強調作業に改良型トランスフォーマーを適用した。
論文 参考訳(メタデータ) (2020-06-18T06:22:09Z) - Simplified Self-Attention for Transformer-based End-to-End Speech
Recognition [56.818507476125895]
本稿では,プロジェクション層の代わりにFSMNメモリブロックを用いてクエリとキーベクトルを生成する,簡易な自己アテンション層(SSAN)を提案する。
我々は,公的なAISHELL-1,1000時間内,20,000時間大規模マンダリンタスクにおけるSSANベースおよび従来のSANベースのトランスフォーマーの評価を行った。
論文 参考訳(メタデータ) (2020-05-21T04:55:59Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。