論文の概要: Benchmarking Rotary Position Embeddings for Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2501.06051v1
- Date: Fri, 10 Jan 2025 15:30:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:28:17.258833
- Title: Benchmarking Rotary Position Embeddings for Automatic Speech Recognition
- Title(参考訳): 自動音声認識のためのロータリー位置埋め込みのベンチマーク
- Authors: Shucong Zhang, Titouan Parcollet, Rogier van Dalen, Sourav Bhattacharya,
- Abstract要約: RoPE(Rotary Position Embedding)は、Transformerベースのモデルにおいて、相対的および絶対的な位置情報を符号化する。
RoPEは、現在広く使われている相対的な位置埋め込みと比較して、一貫して低い誤差率を達成する。
さらなる研究を容易にするため、我々はSpeechBrainツールキットを通じて、実装とすべての実験的なレシピをリリースする。
- 参考スコア(独自算出の注目度): 17.360059094663182
- License:
- Abstract: Rotary Position Embedding (RoPE) encodes relative and absolute positional information in Transformer-based models through rotation matrices applied to input vectors within sequences. While RoPE has demonstrated superior performance compared to other positional embedding technologies in natural language processing tasks, its effectiveness in speech processing applications remains understudied. In this work, we conduct a comprehensive evaluation of RoPE across diverse automatic speech recognition (ASR) tasks. Our experimental results demonstrate that for ASR tasks, RoPE consistently achieves lower error rates compared to the currently widely used relative positional embedding. To facilitate further research, we release the implementation and all experimental recipes through the SpeechBrain toolkit.
- Abstract(参考訳): RoPE(Rotary Position Embedding)は、シークエンス内の入力ベクトルに適用される回転行列を通じてトランスフォーマーモデルにおける相対的および絶対的な位置情報を符号化する。
RoPEは、自然言語処理タスクにおける他の位置埋め込み技術と比較して優れた性能を示しているが、音声処理アプリケーションにおけるその有効性はまだ実証されていない。
本研究では,多様な自動音声認識(ASR)タスクにおけるRoPEの包括的評価を行う。
実験結果から,ASRタスクの場合,RoPEは,現在広く使われている相対的な位置埋め込みよりも低い誤差率を連続的に達成していることがわかった。
さらなる研究を容易にするため、我々はSpeechBrainツールキットを通じて、実装とすべての実験的なレシピをリリースする。
関連論文リスト
- Are Transformers in Pre-trained LM A Good ASR Encoder? An Empirical Study [52.91899050612153]
自動音声認識(ASR)のためのエンコーダとして再利用された事前訓練言語モデル(PLM)内のトランスフォーマー
本研究は,事前学習したLMのトランスフォーマーを組み込んだASRタスクにおいて,文字誤り率 (CER) とワード誤り率 (WER) の顕著な改善が認められた。
このことは、事前訓練されたトランスフォーマーに埋め込まれたセマンティックな技術を活用して、ASRシステムの能力を向上させる可能性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-09-26T11:31:18Z) - Resonance RoPE: Improving Context Length Generalization of Large Language Models [37.749813693281254]
本稿では,ロータリー位置埋め込み(RoPE)を備えた大規模言語モデル(LLM)におけるTSTLシナリオの課題について述べる。
本稿では,TSTLシナリオの一般化ギャップを狭めるための新しい手法であるResonance RoPEを紹介する。
本稿では,TSTLシナリオの微粒化挙動解析に特化して設計された,新しい合成ベンチマークPosGenを提案する。
論文 参考訳(メタデータ) (2024-02-29T19:02:03Z) - AV-RIR: Audio-Visual Room Impulse Response Estimation [49.469389715876915]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。
本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文 参考訳(メタデータ) (2023-11-30T22:58:30Z) - SPE-Net: Boosting Point Cloud Analysis via Rotation Robustness
Enhancement [118.20816888815658]
SPE-Netという名前の3Dポイントクラウドアプリケーションに適した新しいディープアーキテクチャを提案する。
埋め込みSelective Position variant' の手順は、入力の根底にある回転条件に効果的に対応できる注意機構に依存している。
SPE-Netと関連する仮説の利点を4つのベンチマークで示し、SOTA法よりも回転試験データと回転試験データの両方に明らかな改善点を示した。
論文 参考訳(メタデータ) (2022-11-15T15:59:09Z) - Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-08T16:38:24Z) - A Comparative Study on Non-Autoregressive Modelings for Speech-to-Text
Generation [59.64193903397301]
非自己回帰モデル (NAR) はシーケンス内の複数の出力を同時に生成し、自動回帰ベースラインと比較して精度低下のコストで推論速度を著しく低減する。
エンドツーエンド自動音声認識(ASR)のための様々なNARモデリング手法の比較研究を行う。
各種課題の成果は, 精度・速度トレードオフや長文発話に対する頑健性など, NAR ASR の理解を深める上で興味深い結果をもたらす。
論文 参考訳(メタデータ) (2021-10-11T13:05:06Z) - Conformer-based End-to-end Speech Recognition With Rotary Position
Embedding [11.428057887454008]
畳み込み強化変圧器(コンフォーマ)に回転位置埋め込み(RoPE)を導入する。
RoPEは、絶対位置情報を回転行列によって入力シーケンスにエンコードし、自然に明示的な相対位置情報を自己保持モジュールに組み込む。
提案モデルでは,LbriSpeechコーパスの試験クリーンおよびテスト他のセットに対して,コンバータの単語誤り率を8.70%,コンバータの7.27%削減する。
論文 参考訳(メタデータ) (2021-07-13T08:07:22Z) - RoFormer: Enhanced Transformer with Rotary Position Embedding [9.01819510933327]
位置情報を効果的に活用するためのRotary Position Embedding(RoPE)という新しい手法を提案する。
RoPEは絶対位置を回転行列でエンコードし、一方、自己アテンションの定式化に明示的な相対位置依存性を組み込む。
様々な長文分類ベンチマークデータセットを用いて、回転位置埋め込み(RoFormer)と呼ばれる拡張変換器の評価を行った。
論文 参考訳(メタデータ) (2021-04-20T09:54:06Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。