論文の概要: Attention or Convolution: Transformer Encoders in Audio Language Models
for Inference Efficiency
- arxiv url: http://arxiv.org/abs/2311.02772v1
- Date: Sun, 5 Nov 2023 21:30:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 15:48:15.055314
- Title: Attention or Convolution: Transformer Encoders in Audio Language Models
for Inference Efficiency
- Title(参考訳): アテンション・コンボリューション:推論効率向上のための音声言語モデルにおけるトランスフォーマーエンコーダ
- Authors: Sungho Jeon, Ching-Feng Yeh, Hakan Inan, Wei-Ning Hsu, Rashi Rungta,
Yashar Mehdad, Daniel Bikel
- Abstract要約: 音声トランスフォーマエンコーダを用いたより複雑な事前学習モデルに匹敵する推論効率が得られることを示す。
まず,これらの音声変換器をエンコーダとして用いることで,事前学習した音声モデルの効率も向上することを示す。
この単純なアプローチは、ニューラルネットワークの低ビット量量子化技術により、効率を向上する上で特に有益であることを示す。
- 参考スコア(独自算出の注目度): 43.11829499054574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we show that a simple self-supervised pre-trained audio model
can achieve comparable inference efficiency to more complicated pre-trained
models with speech transformer encoders. These speech transformers rely on
mixing convolutional modules with self-attention modules. They achieve
state-of-the-art performance on ASR with top efficiency. We first show that
employing these speech transformers as an encoder significantly improves the
efficiency of pre-trained audio models as well. However, our study shows that
we can achieve comparable efficiency with advanced self-attention solely. We
demonstrate that this simpler approach is particularly beneficial with a
low-bit weight quantization technique of a neural network to improve
efficiency. We hypothesize that it prevents propagating the errors between
different quantized modules compared to recent speech transformers mixing
quantized convolution and the quantized self-attention modules.
- Abstract(参考訳): 本稿では,単純な自己教師付き事前学習音声モデルが,音声トランスフォーマエンコーダを用いたより複雑な事前学習モデルと同等の推論効率を実現できることを示す。
これらの音声変換器は、自己アテンションモジュールと畳み込みモジュールの混合に依存している。
ASRの最先端性能を最高効率で達成する。
まず,これらの変換器をエンコーダとして用いることで,事前学習した音声モデルの効率も向上することを示す。
しかし,本研究では,高度自己注意だけで同等の効率が得られることを示す。
この単純なアプローチは、ニューラルネットワークの低ビット量量子化技術により、効率を向上する上で特に有益であることを示す。
我々は、量子化畳み込みと量子化自己保持モジュールを混合した最近の音声変換器と比較して、異なる量子化モジュール間の誤差の伝播を防止することを仮定する。
関連論文リスト
- DPATD: Dual-Phase Audio Transformer for Denoising [25.097894984130733]
本稿では,denoising (DPATD) のための2相音響変換器を提案する。
メモリに圧縮された説明可能な注意は効率的で、頻繁に使用される自己注意モジュールよりも早く収束する。
論文 参考訳(メタデータ) (2023-10-30T14:44:59Z) - Efficient Monaural Speech Enhancement using Spectrum Attention Fusion [15.8309037583936]
本稿では,自己意図の表現性を保ちながら,モデルの複雑さを著しく低減する音声強調モデルの改良について述べる。
音声変換器において,複数の自己認識層を置き換えるための畳み込みモジュールを構築し,より効率的にスペクトル特徴を融合させる。
提案モデルでは,SOTAモデルに対して同等あるいはより良い結果が得られるが,Voice Bank + DEMANDデータセット上では,パラメータが0.58Mよりもはるかに小さい。
論文 参考訳(メタデータ) (2023-08-04T11:39:29Z) - CHAPTER: Exploiting Convolutional Neural Network Adapters for
Self-supervised Speech Models [62.60723685118747]
自己教師付き学習(SSL)は、ラベルのないデータから表現を学習するための強力な技術である。
特徴抽出器にCNNアダプタを適用し,SSL音声モデルに特化して設計された効率的なチューニング手法を提案する。
特徴抽出器にCNNを追加することで、感情や話者のタスクへの適応が促進されることを実証的に見出した。
論文 参考訳(メタデータ) (2022-12-01T08:50:12Z) - Efficient Training of Audio Transformers with Patchout [7.073210405344709]
音声スペクトログラム上での変換器の最適化と正規化を行う新しい手法を提案する。
提案したモデルは、Audioset上で新しい最先端のパフォーマンスを実現し、単一のコンシューマグレードGPUでトレーニングすることができる。
論文 参考訳(メタデータ) (2021-10-11T08:07:50Z) - Knowledge Distillation from BERT Transformer to Speech Transformer for
Intent Classification [66.62686601948455]
本研究では,変圧器に基づく言語モデルから変圧器に基づく音声モデルへの知識蒸留に特化して設計された変圧器蒸留法のスコープを利用する。
本研究では,Fluent 音声コーパスとATISデータベースの意図分類精度を99.10%,88.79%とした。
論文 参考訳(メタデータ) (2021-08-05T13:08:13Z) - Transformer-based ASR Incorporating Time-reduction Layer and Fine-tuning
with Self-Knowledge Distillation [11.52842516726486]
本稿では,トランスエンコーダ層に時間削減層を組み込んだTransformer-based ASRモデルを提案する。
また、自己知識蒸留(S-KD)を用いた事前学習型ASRモデルの微調整手法を導入し、ASRモデルの性能をさらに向上させる。
言語モデル(LM)融合により、トランスフォーマーベースのASRモデルのための最新の単語誤り率(WER)結果を達成します。
論文 参考訳(メタデータ) (2021-03-17T21:02:36Z) - Efficient End-to-End Speech Recognition Using Performers in Conformers [74.71219757585841]
モデルサイズに加えて,モデルアーキテクチャの複雑さを低減することを提案する。
提案モデルにより,1000万のパラメータと線形複雑度を持つLibriSpeechコーパス上での競合性能が得られた。
論文 参考訳(メタデータ) (2020-11-09T05:22:57Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - Relative Positional Encoding for Speech Recognition and Direct
Translation [72.64499573561922]
相対位置符号化方式を音声変換器に適用する。
その結果,ネットワークは音声データに存在する変動分布に適応できることがわかった。
論文 参考訳(メタデータ) (2020-05-20T09:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。