論文の概要: Similarity and Content-based Phonetic Self Attention for Speech
Recognition
- arxiv url: http://arxiv.org/abs/2203.10252v1
- Date: Sat, 19 Mar 2022 05:35:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 17:20:51.883031
- Title: Similarity and Content-based Phonetic Self Attention for Speech
Recognition
- Title(参考訳): 音声認識における類似性とコンテンツベース音声自己注意
- Authors: Kyuhong Shim, Wonyong Sung
- Abstract要約: 提案する音韻自己注意(phSA)は2種類の音韻的注意から成り立っている。
原点製品のどの部分が2つの異なる注意パターンと関連しているかを特定し、簡単な修正によって各部分を改善する。
音素分類と音声認識実験により,低層化において,SA を phSA に置き換えることにより,遅延やパラメータサイズを増大させることなく,音声認識性能が向上することが示された。
- 参考スコア(独自算出の注目度): 16.206467862132012
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transformer-based speech recognition models have achieved great success due
to the self-attention (SA) mechanism that utilizes every frame in the feature
extraction process. Especially, SA heads in lower layers capture various
phonetic characteristics by the query-key dot product, which is designed to
compute the pairwise relationship between frames. In this paper, we propose a
variant of SA to extract more representative phonetic features. The proposed
phonetic self-attention (phSA) is composed of two different types of phonetic
attention; one is similarity-based and the other is content-based. In short,
similarity-based attention utilizes the correlation between frames while
content-based attention only considers each frame without being affected by
others. We identify which parts of the original dot product are related to two
different attention patterns and improve each part by simple modifications. Our
experiments on phoneme classification and speech recognition show that
replacing SA with phSA for lower layers improves the recognition performance
without increasing the latency and the parameter size.
- Abstract(参考訳): トランスベースの音声認識モデルは,特徴抽出過程の各フレームを利用するセルフアテンション(sa)機構によって,大きな成功を収めている。
特に下層におけるsaヘッドは、フレーム間のペア関係を計算するために設計されたquery-key dot製品によって様々な音声特性をキャプチャする。
本稿では,より代表的な音声特徴を抽出するSAの変種を提案する。
提案する音素自己着想 (phsa) は, 類似性に基づくものと, コンテンツに基づくものという, 2種類の音韻的注意から成り立っている。
要するに、類似性に基づく注意はフレーム間の相関を利用するが、コンテンツベースの注意は、他の影響を受けずに各フレームのみを考慮する。
原点製品のどの部分が2つの異なる注意パターンと関連しているかを識別し、簡単な修正により各部分を改善する。
音素分類と音声認識実験により,saを低層でphsaに置き換えることで,レイテンシやパラメータサイズを増加させずに認識性能が向上することを示した。
関連論文リスト
- Parameter Efficient Audio Captioning With Faithful Guidance Using
Audio-text Shared Latent Representation [0.9285295512807729]
本稿では,幻覚音の字幕を生成するためのデータ拡張手法を提案する。
次に,パラメータ効率の良い推論時間忠実復号アルゴリズムを提案し,より多くのデータで訓練されたより大きなモデルに匹敵する性能を持つ小型オーディオキャプションモデルを実現する。
論文 参考訳(メタデータ) (2023-09-06T19:42:52Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment [67.10208647482109]
STS音声変換タスクは,音声録音に対応する歌唱サンプルを生成することを目的としている。
本稿では,明示的なクロスモーダルアライメントに基づくSTSモデルであるAlignSTSを提案する。
実験の結果、AlignSTSは客観的メトリクスと主観的メトリクスの両方で優れたパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-05-08T06:02:10Z) - Multi-Dimensional and Multi-Scale Modeling for Speech Separation
Optimized by Discriminative Learning [9.84949849886926]
音声分離のためのSE変換器とISCIT(Intra-SE-Conformer and Inter-Transformer)
新しいネットワークSE-Conformerは、複数の次元とスケールでオーディオシーケンスをモデル化できる。
論文 参考訳(メタデータ) (2023-03-07T08:53:20Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - ASR-Aware End-to-end Neural Diarization [15.172086811068962]
本稿では、音響入力と自動音声認識(ASR)モデルから得られる特徴の両方を用いて、コンフォーマーに基づくエンドツーエンドニューラルダイアリゼーション(EEND)モデルを提案する。
この機能を組み込むために、ConformerベースのEENDアーキテクチャの3つの変更が提案されている。
Switchboard+SREデータセットの2つの話者による英語会話実験により、単語位置情報を用いたマルチタスク学習がASR特徴を利用する最も効果的な方法であることが示された。
論文 参考訳(メタデータ) (2022-02-02T21:17:14Z) - Voice Quality and Pitch Features in Transformer-Based Speech Recognition [3.921076451326107]
本研究では,トランスフォーマーに基づくASRモデルに対して,音声品質とピッチ特徴を完全かつ個別に取り入れることの効果について検討した。
We found mean Word Error Rate relative reductions to up 5.6% with the LibriSpeech benchmark。
論文 参考訳(メタデータ) (2021-12-21T17:49:06Z) - Correlating Subword Articulation with Lip Shapes for Embedding Aware
Audio-Visual Speech Enhancement [94.0676772764248]
埋め込み認識音声強調(EASE)を改善するための視覚的埋め込み手法を提案する。
視覚のみのEASE(VEASE)のための事前訓練された電話機や調音位置認識器を用いて、まず唇フレームから視覚埋め込みを抽出する。
次に,マルチモーダルEASE(MEASE)における音声・視覚的特徴の相補性を利用して,雑音の多い音声・唇ビデオからの音声・視覚的埋め込みを情報交叉方式で抽出する。
論文 参考訳(メタデータ) (2020-09-21T01:26:19Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。