論文の概要: Conformer-based End-to-end Speech Recognition With Rotary Position
Embedding
- arxiv url: http://arxiv.org/abs/2107.05907v1
- Date: Tue, 13 Jul 2021 08:07:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-14 14:35:28.345464
- Title: Conformer-based End-to-end Speech Recognition With Rotary Position
Embedding
- Title(参考訳): 回転位置埋め込みを用いたコンフォーマに基づくエンドツーエンド音声認識
- Authors: Shengqiang Li, Menglong Xu, Xiao-Lei Zhang
- Abstract要約: 畳み込み強化変圧器(コンフォーマ)に回転位置埋め込み(RoPE)を導入する。
RoPEは、絶対位置情報を回転行列によって入力シーケンスにエンコードし、自然に明示的な相対位置情報を自己保持モジュールに組み込む。
提案モデルでは,LbriSpeechコーパスの試験クリーンおよびテスト他のセットに対して,コンバータの単語誤り率を8.70%,コンバータの7.27%削減する。
- 参考スコア(独自算出の注目度): 11.428057887454008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based end-to-end speech recognition models have received
considerable attention in recent years due to their high training speed and
ability to model a long-range global context. Position embedding in the
transformer architecture is indispensable because it provides supervision for
dependency modeling between elements at different positions in the input
sequence. To make use of the time order of the input sequence, many works
inject some information about the relative or absolute position of the element
into the input sequence. In this work, we investigate various position
embedding methods in the convolution-augmented transformer (conformer) and
adopt a novel implementation named rotary position embedding (RoPE). RoPE
encodes absolute positional information into the input sequence by a rotation
matrix, and then naturally incorporates explicit relative position information
into a self-attention module. To evaluate the effectiveness of the RoPE method,
we conducted experiments on AISHELL-1 and LibriSpeech corpora. Results show
that the conformer enhanced with RoPE achieves superior performance in the
speech recognition task. Specifically, our model achieves a relative word error
rate reduction of 8.70% and 7.27% over the conformer on test-clean and
test-other sets of the LibriSpeech corpus respectively.
- Abstract(参考訳): 近年,トランスフォーマチック・エンド・ツー・エンド音声認識モデルが,高い訓練速度と長距離大域的文脈のモデル化能力により注目を集めている。
入力シーケンス内の異なる位置にある要素間の依存性モデリングの監視を提供するので、トランスフォーマーアーキテクチャへの位置埋め込みは不可欠である。
入力シーケンスの時間順序を利用するため、多くのワークは要素の相対的または絶対的な位置に関する情報を入力シーケンスに注入する。
本研究では,畳み込み型変圧器(コンバータ)の様々な位置埋め込み法について検討し,回転位置埋め込み(RoPE)と呼ばれる新しい実装を採用する。
RoPEは、絶対位置情報を回転行列によって入力シーケンスにエンコードし、自然に明示的な相対位置情報を自己保持モジュールに組み込む。
提案手法の有効性を評価するため,AISHELL-1とLibriSpeech corporaの実験を行った。
その結果、ロープで強化されたコンフォーメータは音声認識タスクにおいて優れた性能が得られることがわかった。
具体的には,LbriSpeech コーパスのテストクリーンおよびテスト他のセットのコンバータに対して,相対単語誤り率を8.70%,7.27%削減する。
関連論文リスト
- Real-Time Motion Prediction via Heterogeneous Polyline Transformer with
Relative Pose Encoding [121.08841110022607]
既存のエージェント中心の手法は、公開ベンチマークで顕著な性能を示した。
K-nearest neighbor attention with relative pose encoding (KNARPE) は、トランスフォーマーがペアワイズ相対表現を使用できる新しいアテンション機構である。
エージェント間でコンテキストを共有し、変化しないコンテキストを再利用することで、私たちのアプローチはシーン中心のメソッドと同じくらい効率的になり、最先端のエージェント中心のメソッドと同等に実行されます。
論文 参考訳(メタデータ) (2023-10-19T17:59:01Z) - SPE-Net: Boosting Point Cloud Analysis via Rotation Robustness
Enhancement [118.20816888815658]
SPE-Netという名前の3Dポイントクラウドアプリケーションに適した新しいディープアーキテクチャを提案する。
埋め込みSelective Position variant' の手順は、入力の根底にある回転条件に効果的に対応できる注意機構に依存している。
SPE-Netと関連する仮説の利点を4つのベンチマークで示し、SOTA法よりも回転試験データと回転試験データの両方に明らかな改善点を示した。
論文 参考訳(メタデータ) (2022-11-15T15:59:09Z) - Deep Reinforcement Learning for IRS Phase Shift Design in
Spatiotemporally Correlated Environments [93.30657979626858]
本稿では,チャネル相関と目的地動きを考慮したディープアクター批判アルゴリズムを提案する。
チャネルが時間的に相関している場合、コンバージェンスを抑制する方法において、関数近似を伴う状態表現にSNRを組み込むことが示される。
論文 参考訳(メタデータ) (2022-11-02T22:07:36Z) - Robust Disentangled Variational Speech Representation Learning for
Zero-shot Voice Conversion [34.139871476234205]
自己教師付き不協和音声表現学習の新たな視点からゼロショット音声変換について検討する。
任意の話者埋め込みとコンテンツ埋め込みとを逐次変分オートエンコーダ(VAE)デコーダに供給してゼロショット音声変換を行う。
TIMIT と VCTK のデータセットでは,話者の埋め込みとコンテンツ埋め込みに関する話者検証 (SV) と主観的評価,すなわち音声の自然性や類似性を両立させ,ノイズのある音源/ターゲット発話においても頑健である。
論文 参考訳(メタデータ) (2022-03-30T23:03:19Z) - Multiplicative Position-aware Transformer Models for Language
Understanding [17.476450946279037]
自己アテンションのようなアーキテクチャ改善を活用するトランスフォーマーモデルは、自然言語処理(NLP)タスクにおいて極めてよく機能する。
本稿では,既存の主要な位置埋め込み手法を概説し,その精度を下流NLPタスクで比較する。
また,既存手法と比較して精度が向上する新しい乗法埋め込み法を提案する。
論文 参考訳(メタデータ) (2021-09-27T04:18:32Z) - Rethinking and Improving Relative Position Encoding for Vision
Transformer [61.559777439200744]
リレーショナル位置符号化(RPE)は、トランスフォーマーが入力トークンのシーケンス順序をキャプチャする上で重要である。
画像RPE(iRPE)と呼ばれる2次元画像専用の新しい相対的位置符号化法を提案する。
論文 参考訳(メタデータ) (2021-07-29T17:55:10Z) - CAPE: Encoding Relative Positions with Continuous Augmented Positional
Embeddings [33.87449556591022]
絶対位置埋め込みのための拡張型アプローチ(CAPE)を提案する。
CAPEは絶対(単純さと速度)と相対的な位置埋め込み(一般化)の両方の利点を保っている。
論文 参考訳(メタデータ) (2021-06-06T14:54:55Z) - RoFormer: Enhanced Transformer with Rotary Position Embedding [9.01819510933327]
位置情報を効果的に活用するためのRotary Position Embedding(RoPE)という新しい手法を提案する。
RoPEは絶対位置を回転行列でエンコードし、一方、自己アテンションの定式化に明示的な相対位置依存性を組み込む。
様々な長文分類ベンチマークデータセットを用いて、回転位置埋め込み(RoFormer)と呼ばれる拡張変換器の評価を行った。
論文 参考訳(メタデータ) (2021-04-20T09:54:06Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Constructing interval variables via faceted Rasch measurement and
multitask deep learning: a hate speech application [63.10266319378212]
本稿では,教師付き深層学習と多面的ラッシュアイテム応答理論(IRT)構築手法を組み合わせることで,連続区間スペクトル上の複素変数を測定する手法を提案する。
われわれは、YouTube、Twitter、Redditから5万件のソーシャルメディアコメントを収集し、1万1000人の米国拠点のAmazon Mechanical Turkの労働者によってラベル付けされたデータセット上で、この新しい手法を実証した。
論文 参考訳(メタデータ) (2020-09-22T02:15:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。