論文の概要: Exploring Turkish Speech Recognition via Hybrid CTC/Attention
Architecture and Multi-feature Fusion Network
- arxiv url: http://arxiv.org/abs/2303.12300v1
- Date: Wed, 22 Mar 2023 04:11:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 15:18:31.812576
- Title: Exploring Turkish Speech Recognition via Hybrid CTC/Attention
Architecture and Multi-feature Fusion Network
- Title(参考訳): ハイブリッドCTC/アテンションアーキテクチャと多機能融合ネットワークによるトルコ語音声認識の探索
- Authors: Zeyu Ren, Nurmement Yolwas, Huiru Wang, Wushour Slamu
- Abstract要約: 本稿では,音声認識チューニング技術のシリーズについて検討する。
本稿では,効率的な特徴情報の利用を最大化するために,新たな特徴抽出器LSPCを提案する。
我々のモデル性能は、先進的なエンド・ツー・エンドモデルに匹敵する。
- 参考スコア(独自算出の注目度): 1.514049362441354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, End-to-End speech recognition technology based on deep
learning has developed rapidly. Due to the lack of Turkish speech data, the
performance of Turkish speech recognition system is poor. Firstly, this paper
studies a series of speech recognition tuning technologies. The results show
that the performance of the model is the best when the data enhancement
technology combining speed perturbation with noise addition is adopted and the
beam search width is set to 16. Secondly, to maximize the use of effective
feature information and improve the accuracy of feature extraction, this paper
proposes a new feature extractor LSPC. LSPC and LiGRU network are combined to
form a shared encoder structure, and model compression is realized. The results
show that the performance of LSPC is better than MSPC and VGGnet when only
using Fbank features, and the WER is improved by 1.01% and 2.53% respectively.
Finally, based on the above two points, a new multi-feature fusion network is
proposed as the main structure of the encoder. The results show that the WER of
the proposed feature fusion network based on LSPC is improved by 0.82% and
1.94% again compared with the single feature (Fbank feature and Spectrogram
feature) extraction using LSPC. Our model achieves performance comparable to
that of advanced End-to-End models.
- Abstract(参考訳): 近年,ディープラーニングに基づくエンドツーエンド音声認識技術が急速に進歩している。
トルコ語音声データが不足しているため、トルコ語音声認識システムの性能は低調である。
本稿では,まず,一連の音声認識チューニング技術について検討する。
その結果、速度摂動とノイズ付加を組み合わせたデータ拡張技術を採用し、ビーム探索幅を16に設定した場合、モデルの性能が最も良いことがわかった。
次に,効率的な特徴情報の利用を最大化し,特徴抽出の精度を向上させるために,新たな特徴抽出器LSPCを提案する。
LSPCとLiGRUネットワークを結合して共有エンコーダ構造を形成し、モデル圧縮を実現する。
その結果,Fbank機能のみを用いた場合,LSPCの性能はMSPCとVGGnetより優れており,WERは1.01%,2.53%向上した。
最後に、上記の2点に基づいて、エンコーダの主構造として、新しい多機能核融合ネットワークを提案する。
その結果,LSPCを用いた単一特徴量抽出(Fbank特徴量とSpectrogram特徴量)と比較して,LSPCに基づく機能融合ネットワークのWERは0.82%,1.94%向上した。
私たちのモデルは、高度なエンドツーエンドモデルに匹敵するパフォーマンスを実現します。
関連論文リスト
- Straight Through Gumbel Softmax Estimator based Bimodal Neural Architecture Search for Audio-Visual Deepfake Detection [6.367999777464464]
マルチモーダルディープフェイク検出器は 従来の融合法に依存している 多数決ルールや アンサンブル投票など
本稿では,マルチモーダル融合モデルアーキテクチャを検索するための包括的アプローチを提供する,Straight-through Gumbel-Softmaxフレームワークを提案する。
FakeAVCelebとSWAN-DFデータセットの実験では、最小のモデルパラメータでAUCの94.4%が達成された。
論文 参考訳(メタデータ) (2024-06-19T09:26:22Z) - Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Multimodal Fake News Detection via CLIP-Guided Learning [26.093561485807832]
本稿では、FND-CLIPフレームワーク、すなわち、コントラスト言語-画像事前学習(CLIP)に基づくマルチモーダルフェイクニュース検出ネットワークを提案する。
対象とするマルチモーダルニュースから,ResNetベースのエンコーダ,BERTベースのエンコーダ,および2つのペアワイズCLIPエンコーダを用いて,画像とテキストから深層表現を抽出する。
マルチモーダル特徴は、2つのモーダルの標準化されたクロスモーダル類似性によって重み付けられたCLIP生成特徴の連結である。
論文 参考訳(メタデータ) (2022-05-28T02:43:18Z) - Advancing CTC-CRF Based End-to-End Speech Recognition with Wordpieces
and Conformers [33.725831884078744]
提案したCTC-CRFフレームワークは、ハイブリッドアプローチのデータ効率とエンドツーエンドアプローチの単純さを継承する。
本稿では,最近開発されたワードピースモデリングユニットとコンフォーマーニューラルネットワークをCTC-CRFに適用する手法について検討する。
論文 参考訳(メタデータ) (2021-07-07T04:12:06Z) - Raw Waveform Encoder with Multi-Scale Globally Attentive Locally
Recurrent Networks for End-to-End Speech Recognition [45.858039215825656]
本稿では,グローバルな注意的局所再帰(GALR)ネットワークを採用し,生波形を直接入力とする新しいエンコーダを提案する。
ベンチマークデータセットAISHELL-2と,5,000時間21,000時間の大規模マンダリン音声コーパスを用いて実験を行った。
論文 参考訳(メタデータ) (2021-06-08T12:12:33Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z) - Multiresolution and Multimodal Speech Recognition with Transformers [22.995102995029576]
本稿ではトランスフォーマーアーキテクチャを用いた音声視覚自動音声認識(AV-ASR)システムを提案する。
我々は、視覚情報によって提供されるシーンコンテキストに着目して、ASRを接地する。
私たちの結果は、最先端のListen、Attend、Spellベースのアーキテクチャに匹敵します。
論文 参考訳(メタデータ) (2020-04-29T09:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。