論文の概要: SAN: a robust end-to-end ASR model architecture
- arxiv url: http://arxiv.org/abs/2210.15285v1
- Date: Thu, 27 Oct 2022 09:36:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 15:13:38.260781
- Title: SAN: a robust end-to-end ASR model architecture
- Title(参考訳): SAN: 堅牢なエンドツーエンドのASRモデルアーキテクチャ
- Authors: Zeping Min, Qian Ge, Guanhua Huang
- Abstract要約: 自動音声認識のためのSiamese Adversarial Network (SAN)アーキテクチャ
SANは音声特徴入力を区別するために2つのサブネットワークを構築し、これらのサブネットワークの出力分布を統合するために損失を導入する。
音声認識タスクのための複数のデータセット上で,SANモデルを用いて数値実験を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel Siamese Adversarial Network (SAN)
architecture for automatic speech recognition, which aims at solving the
difficulty of fuzzy audio recognition. Specifically, SAN constructs two
sub-networks to differentiate the audio feature input and then introduces a
loss to unify the output distribution of these sub-networks. Adversarial
learning enables the network to capture more essential acoustic features and
helps the models achieve better performance when encountering fuzzy audio
input. We conduct numerical experiments with the SAN model on several datasets
for the automatic speech recognition task. All experimental results show that
the siamese adversarial nets significantly reduce the character error rate
(CER). Specifically, we achieve a new state of art 4.37 CER without language
model on the AISHELL-1 dataset, which leads to around 5% relative CER
reduction. To reveal the generality of the siamese adversarial net, we also
conduct experiments on the phoneme recognition task, which also shows the
superiority of the siamese adversarial network.
- Abstract(参考訳): 本稿では,ファジィ音声認識の難易度を解消することを目的とした,自動音声認識のためのsiamese adversarial network(san)アーキテクチャを提案する。
具体的には、音声特徴入力を区別するために2つのサブネットワークを構築し、これらのサブネットワークの出力分布を統合するために損失を導入する。
敵対学習により、ネットワークはより重要な音響的特徴を捉え、ファジィオーディオ入力に遭遇する際のモデルの性能向上を支援する。
音声認識タスクのための複数のデータセット上でSANモデルを用いて数値実験を行う。
全ての実験結果から,シアム対逆ネットは文字誤り率(CER)を著しく低下させることが示された。
具体的には,aishell-1データセット上で言語モデルなしでart 4.37 cerを新たに実現することで,約5%のcer削減を実現する。
また,sahese adversarial netの汎用性を明らかにするために,sahese adversarial networkの優位性を示す音素認識タスクについても実験を行った。
関連論文リスト
- Deep Neural Networks for Automatic Speaker Recognition Do Not Learn
Supra-Segmental Temporal Features [2.724035499453558]
本稿では,話者認識のための最先端ニューラルネットワークの性能が,SSTのモデル化によってどの程度説明できるかを定量化するための新しいテストを提案し,適用する。
話者認識のための様々なCNNおよびRNNベースのニューラルネットワークアーキテクチャは、強制してもSSTを十分な程度にモデル化していない。
論文 参考訳(メタデータ) (2023-11-01T12:45:31Z) - EmoDiarize: Speaker Diarization and Emotion Identification from Speech
Signals using Convolutional Neural Networks [0.0]
本研究では,音声認識における深層学習技術の統合について検討する。
既存の話者ダイアリゼーションパイプラインと、畳み込みニューラルネットワーク(CNN)上に構築された感情識別モデルを組み合わせたフレームワークを導入する。
提案モデルでは,63%の非重み付き精度が得られ,音声信号中の感情状態を正確に同定する上で,顕著な効率性を示した。
論文 参考訳(メタデータ) (2023-10-19T16:02:53Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - Streaming Speech-to-Confusion Network Speech Recognition [19.720334657478475]
本稿では、待ち時間を維持しながら混乱ネットワークを出力する新しいストリーミングASRアーキテクチャを提案する。
モデルのうち1-bestの結果は、同等のRNN-Tシステムと同等であることを示す。
また、遠距離音声アシスタントタスクにおいて、我々のモデルは強力なRNN-Tベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-02T20:28:14Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - Speech Command Recognition in Computationally Constrained Environments
with a Quadratic Self-organized Operational Layer [92.37382674655942]
軽量ネットワークの音声コマンド認識能力を向上するネットワーク層を提案する。
この手法はテイラー展開と二次形式の概念を借用し、入力層と隠蔽層の両方における特徴のより良い表現を構築する。
このリッチな表現は、Google音声コマンド(GSC)と合成音声コマンド(SSC)データセットに関する広範な実験で示されているように、認識精度の向上をもたらす。
論文 参考訳(メタデータ) (2020-11-23T14:40:18Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。