論文の概要: Early Attentive Sparsification Accelerates Neural Speech Transcription
- arxiv url: http://arxiv.org/abs/2506.15912v1
- Date: Wed, 18 Jun 2025 23:16:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.88179
- Title: Early Attentive Sparsification Accelerates Neural Speech Transcription
- Title(参考訳): 早期の注意スペーサー化はニューラル音声の転写を加速させる
- Authors: Zifei Xu, Sayeh Sharify, Hesham Mostafa, Tristan Webb, Wanzin Yazar, Xin Wang,
- Abstract要約: トランスフォーマーに基づくニューラル音声処理は最先端の性能を達成した。
我々は,ニューラルエンコーディングの初期段階において,時間領域信号スペーシフィケーションによるニューラル音声の書き起こしを高速化することを模索している。
- 参考スコア(独自算出の注目度): 6.074922505142795
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Transformer-based neural speech processing has achieved state-of-the-art performance. Since speech audio signals are known to be highly compressible, here we seek to accelerate neural speech transcription by time-domain signal sparsification early in the neural encoding stage, taking advantage of the interpretability of the self-attention mechanism in transformer audio encoders. With the Whisper family of models, we perform a systematic architecture search over the joint space of sparsification stage (a certain encoder layer) and compression ratio (sparsity). We found that the best resulting solutions under 1% accuracy degradation choose to sparsify the hidden state to 40-60% sparsity at an early encoding stage, and thereby achieve up to 1.6x runtime acceleration in English speech transcription tasks on Nvidia GPUs without any fine-tuning.
- Abstract(参考訳): トランスフォーマーに基づくニューラル音声処理は最先端の性能を達成した。
音声信号は非常に圧縮性が高いことが知られているので,トランスフォーマオーディオエンコーダにおける自己保持機構の解釈可能性を利用して,ニューラルエンコーダの早期に時間領域信号スペーサー化によるニューラル音声の書き起こしを高速化することを模索する。
モデルのWhisperファミリでは、スペーサーステージ(特定のエンコーダ層)と圧縮比(スパーシティ)の結合空間を体系的に探索する。
1%の精度分解で得られた最適解は,符号化段階では40~60%の間隔で隠れた状態をスペーシングし,微調整を伴わずに,Nvidia GPU上での英語音声書き起こしタスクにおいて最大1.6倍の高速化を実現する。
関連論文リスト
- Decoding Covert Speech from EEG Using a Functional Areas Spatio-Temporal Transformer [9.914613096064848]
脳波(EEG)からの音声の復号は、脳波マッピングの理解が限られているため困難である。
本研究では,57人の右利き英語話者を対象に,大規模多言語音声脳波を作成した。
本研究は,前頭側頭葉領域と側頭葉領域のFAST生成活性化マップを可視化することにより,音声のニューラル特徴を明らかにした。
論文 参考訳(メタデータ) (2025-04-02T10:38:08Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - Disentangled Feature Learning for Real-Time Neural Speech Coding [24.751813940000993]
本稿では,視覚的なエンドツーエンド学習の代わりに,リアルタイムなニューラル音声符号化のための非絡み合った特徴を学習することを提案する。
学習された不整合特徴は、現代の自己教師付き音声表現学習モデルを用いて、任意の音声変換において同等の性能を示す。
論文 参考訳(メタデータ) (2022-11-22T02:50:12Z) - Latent-Domain Predictive Neural Speech Coding [22.65761249591267]
本稿では,VQ-VAEフレームワークに潜在ドメイン予測符号化を導入する。
本稿では,低レイテンシなニューラル音声符号化のためのTF-Codecをエンドツーエンドで提案する。
多言語音声データセットの主観的な結果から、低レイテンシでは1kbpsのTF-Codecは9kbpsよりも大幅に品質が向上することが示された。
論文 参考訳(メタデータ) (2022-07-18T03:18:08Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - Neural Vocoder is All You Need for Speech Super-resolution [56.84715616516612]
音声スーパーレゾリューション(SR)は、高周波成分を生成して音声サンプリング率を高めるタスクである。
既存の音声SR法は、固定的なアップサンプリング比のような制約のある実験環境で訓練される。
本稿では,ニューラルボコーダを用いた音声超解法(NVSR)を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:51:00Z) - DeepA: A Deep Neural Analyzer For Speech And Singing Vocoding [71.73405116189531]
本稿では,従来のボコーダで定義されている音声をエミュレートする入力音声から,F0と音節/音節/音節のエンコーディングを抽出するニューラルボコーダを提案する。
ディープ・ニューラル・アナライザは学習可能であるため、信号の再構成と操作がより正確であり、音声から歌への一般化が期待できる。
論文 参考訳(メタデータ) (2021-10-13T01:39:57Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Voice Activity Detection for Transient Noisy Environment Based on
Diffusion Nets [13.558688470594674]
過渡音と定常音の音響環境における音声活動検出について検討する。
音声フレームと非音声音声フレームの空間パターンを独立に学習し,その基礎となる幾何学的構造を学習する。
ディープニューラルネットワークは、音声フレームと非音声フレームを分離するように訓練される。
論文 参考訳(メタデータ) (2021-06-25T17:05:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。