論文の概要: A Comparison of Transformer, Convolutional, and Recurrent Neural
Networks on Phoneme Recognition
- arxiv url: http://arxiv.org/abs/2210.00367v1
- Date: Sat, 1 Oct 2022 20:47:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 15:59:45.980086
- Title: A Comparison of Transformer, Convolutional, and Recurrent Neural
Networks on Phoneme Recognition
- Title(参考訳): 音素認識における変圧器, 畳み込み, 繰り返しニューラルネットワークの比較
- Authors: Kyuhong Shim, Wonyong Sung
- Abstract要約: 我々は,音素認識を用いてCNN,RNN,Transformer,Conformerの各モデルを比較し,解析する。
解析の結果,TransformerモデルとConformerモデルは,入力フレームによる自己認識の長距離アクセス性から恩恵を受けることがわかった。
- 参考スコア(独自算出の注目度): 16.206467862132012
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Phoneme recognition is a very important part of speech recognition that
requires the ability to extract phonetic features from multiple frames. In this
paper, we compare and analyze CNN, RNN, Transformer, and Conformer models using
phoneme recognition. For CNN, the ContextNet model is used for the experiments.
First, we compare the accuracy of various architectures under different
constraints, such as the receptive field length, parameter size, and layer
depth. Second, we interpret the performance difference of these models,
especially when the observable sequence length varies. Our analyses show that
Transformer and Conformer models benefit from the long-range accessibility of
self-attention through input frames.
- Abstract(参考訳): 音素認識は音声認識の重要な部分であり、複数のフレームから音声の特徴を抽出する能力を必要とする。
本稿では,音素認識を用いたCNN,RNN,Transformer,Conformerモデルの比較と解析を行う。
CNNでは、ContextNetモデルが実験に使用される。
まず,レセプティブフィールド長,パラメータサイズ,層深さなど,異なる制約下での各種アーキテクチャの精度を比較する。
第2に、観測可能なシーケンス長が変化する場合、これらのモデルの性能差を解釈する。
本研究では,トランスフォーマーモデルとコンフォーメータモデルが,入力フレームによる自己着脱の長距離的アクセシビリティの恩恵を受けることを示す。
関連論文リスト
- TVLT: Textless Vision-Language Transformer [89.31422264408002]
テキストレス・ビジョン・ランゲージ変換器 (TVLT) では, 同種変換器ブロックが生の視覚・音声入力を行う。
TVLTはテキストベースの様々なマルチモーダルタスクに匹敵するパフォーマンスを実現している。
その結果,低レベルの視覚・音声信号から,コンパクトで効率的な視覚言語表現を学習できる可能性が示唆された。
論文 参考訳(メタデータ) (2022-09-28T15:08:03Z) - Combined CNN Transformer Encoder for Enhanced Fine-grained Human Action
Recognition [11.116921653535226]
本稿では,CNNビジョンバックボーンとTransformerを組み合わせた2つのフレームワークについて検討する。
実験の結果,トランスフォーマーエンコーダフレームワークはいずれも,潜時的意味論と相互モダリティ関連を効果的に学習していることがわかった。
我々は,両アーキテクチャのFinGymベンチマークデータセットに対して,最先端性能を新たに実現した。
論文 参考訳(メタデータ) (2022-08-03T08:01:55Z) - Visualising and Explaining Deep Learning Models for Speech Quality
Prediction [0.0]
本稿では,非侵入的音声品質予測モデルであるNISQAについて分析する。
畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)から構成される。
論文 参考訳(メタデータ) (2021-12-12T12:50:03Z) - Neural String Edit Distance [77.72325513792981]
文字列対分類とシーケンス生成のためのニューラルストリング編集距離モデルを提案する。
オリジナルの期待最大化学習編集距離アルゴリズムを微分可能な損失関数に変更します。
ひとつのフレームワークでパフォーマンスと解釈性をトレードオフできることを示します。
論文 参考訳(メタデータ) (2021-04-16T22:16:47Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z) - Relative Positional Encoding for Speech Recognition and Direct
Translation [72.64499573561922]
相対位置符号化方式を音声変換器に適用する。
その結果,ネットワークは音声データに存在する変動分布に適応できることがわかった。
論文 参考訳(メタデータ) (2020-05-20T09:53:06Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - Conformer: Convolution-augmented Transformer for Speech Recognition [60.119604551507805]
最近、トランスフォーマーと畳み込みニューラルネットワーク(CNN)に基づくモデルが、自動音声認識(ASR)の有望な結果を示している。
音声認識のための畳み込み拡張変換器,Conformerを提案する。
広く使われているLibriSpeechベンチマークでは、言語モデルを用いずにWERが2.1%/4.3%、テスト/テストの外部言語モデルで1.9%/3.9%を達成した。
論文 参考訳(メタデータ) (2020-05-16T20:56:25Z) - Multiresolution and Multimodal Speech Recognition with Transformers [22.995102995029576]
本稿ではトランスフォーマーアーキテクチャを用いた音声視覚自動音声認識(AV-ASR)システムを提案する。
我々は、視覚情報によって提供されるシーンコンテキストに着目して、ASRを接地する。
私たちの結果は、最先端のListen、Attend、Spellベースのアーキテクチャに匹敵します。
論文 参考訳(メタデータ) (2020-04-29T09:32:11Z) - Phoneme Boundary Detection using Learnable Segmental Features [31.203969460341817]
音素境界検出は様々な音声処理アプリケーションにおいて重要な第一歩となる。
本稿では,音素境界検出タスクのセグメント表現を学習するために,パラメータ化された構造的損失関数と結合したニューラルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-11T14:03:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。