論文の概要: Echotune: A Modular Extractor Leveraging the Variable-Length Nature of
Speech in ASR Tasks
- arxiv url: http://arxiv.org/abs/2309.07765v1
- Date: Thu, 14 Sep 2023 14:51:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 12:45:24.378388
- Title: Echotune: A Modular Extractor Leveraging the Variable-Length Nature of
Speech in ASR Tasks
- Title(参考訳): Echotune: ASRタスクにおける可変長音声特性を活用したモジュラー・エクストラクタ
- Authors: Sizhou Chen, Songyang Gao, Sen Fang
- Abstract要約: 可変長アテンション機構を備えたピンブルモジュールであるEcho-MSAを紹介する。
提案した設計は,音声の可変長の特徴を捉え,固定長注意の限界に対処する。
- 参考スコア(独自算出の注目度): 4.64484562900918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Transformer architecture has proven to be highly effective for Automatic
Speech Recognition (ASR) tasks, becoming a foundational component for a
plethora of research in the domain. Historically, many approaches have leaned
on fixed-length attention windows, which becomes problematic for varied speech
samples in duration and complexity, leading to data over-smoothing and neglect
of essential long-term connectivity. Addressing this limitation, we introduce
Echo-MSA, a nimble module equipped with a variable-length attention mechanism
that accommodates a range of speech sample complexities and durations. This
module offers the flexibility to extract speech features across various
granularities, spanning from frames and phonemes to words and discourse. The
proposed design captures the variable length feature of speech and addresses
the limitations of fixed-length attention. Our evaluation leverages a parallel
attention architecture complemented by a dynamic gating mechanism that
amalgamates traditional attention with the Echo-MSA module output. Empirical
evidence from our study reveals that integrating Echo-MSA into the primary
model's training regime significantly enhances the word error rate (WER)
performance, all while preserving the intrinsic stability of the original
model.
- Abstract(参考訳): Transformerアーキテクチャは、ASR(Automatic Speech Recognition)タスクに非常に効果的であることが証明され、ドメイン内の多くの研究の基盤となる。
歴史的に、多くのアプローチは固定長の注意窓に依存しており、これは様々な音声サンプルの持続時間と複雑さの問題となり、データの過度な平滑化と重要な長期接続の無視につながる。
この制限に対処するため、様々な音声サンプルの複雑さと持続時間に対応する可変長アテンション機構を備えたニブルモジュールであるEcho-MSAを導入する。
このモジュールは、フレームや音素から単語や談話まで、様々な粒度の音声特徴を抽出する柔軟性を提供する。
提案設計では,音声の可変長の特徴を捉え,固定長注意の限界に対処する。
本評価では,Echo-MSAモジュール出力と従来の注目を一致させる動的ゲーティング機構を補完する並列アテンションアーキテクチャを利用する。
本研究から得られた実証的証拠は,Echo-MSAを初等モデルのトレーニングシステムに組み込むことで,原モデルの本質的な安定性を維持しつつ,単語誤り率(WER)が著しく向上することを明らかにする。
関連論文リスト
- Synergistic Signal Denoising for Multimodal Time Series of Structure
Vibration [9.144905626316534]
本稿では,構造的健康モニタリング(SHM)で広く用いられているマルチモーダル振動信号に固有の複雑さに適した,新しいディープラーニングアルゴリズムを提案する。
畳み込みと再帰的なアーキテクチャの融合により、アルゴリズムは局所化と長期化の両方の構造挙動を順応的にキャプチャする。
以上の結果から,複数のSHMシナリオにおける予測精度,早期損傷検出,適応性に有意な改善が認められた。
論文 参考訳(メタデータ) (2023-08-17T00:41:50Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - BASEN: Time-Domain Brain-Assisted Speech Enhancement Network with
Convolutional Cross Attention in Multi-talker Conditions [36.15815562576836]
時間領域単一チャネル音声強調(SE)は、マルチトーカー条件に関する事前情報なしでターゲット話者を抽出することが依然として困難である。
本稿では,脳波(EEG)を聴取者から記録した脳波を組み込んだ新しい時間領域脳波支援SEネットワーク(BASEN)を提案する。
論文 参考訳(メタデータ) (2023-05-17T06:40:31Z) - Complex-Valued Time-Frequency Self-Attention for Speech Dereverberation [39.64103126881576]
本稿では,スペクトルおよび時間依存性をモデル化した複雑なT-Fアテンション(TFA)モジュールを提案する。
本稿では,REVERBチャレンジコーパスを用いた深部複雑畳み込みリカレントネットワーク(DCCRN)を用いた複雑なTFAモジュールの有効性を検証した。
実験結果から,複雑なTFAモジュールをDCCRNに統合することで,バックエンド音声アプリケーション全体の品質と性能が向上することが示唆された。
論文 参考訳(メタデータ) (2022-11-22T23:38:10Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - TMS: A Temporal Multi-scale Backbone Design for Speaker Embedding [60.292702363839716]
話者埋め込みのための現在のSOTAバックボーンネットワークは、話者表現のためのマルチブランチネットワークアーキテクチャを用いた発話からマルチスケール特徴を集約するように設計されている。
本稿では, 話者埋め込みネットワークにおいて, 計算コストの増大を伴わずに, マルチスケール分岐を効率的に設計できる効果的な時間的マルチスケール(TMS)モデルを提案する。
論文 参考訳(メタデータ) (2022-03-17T05:49:35Z) - MAAS: Multi-modal Assignation for Active Speaker Detection [59.08836580733918]
本稿では,本問題のマルチモーダル性に直接対処するアクティブな話者検出手法を提案する。
実験では,単一フレームで構築した小さなグラフデータ構造により,瞬時に発生する視聴覚課題を近似できることを示した。
論文 参考訳(メタデータ) (2021-01-11T02:57:25Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。