論文の概要: Benchmarking Rotary Position Embeddings for Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2501.06051v2
- Date: Sun, 15 Jun 2025 16:51:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 15:15:29.30315
- Title: Benchmarking Rotary Position Embeddings for Automatic Speech Recognition
- Title(参考訳): 自動音声認識のためのロータリー位置埋め込みのベンチマーク
- Authors: Shucong Zhang, Titouan Parcollet, Rogier van Dalen, Sourav Bhattacharya,
- Abstract要約: 音声認識(ASR)において相対位置(RelPos)埋め込みが広く使われている
対照的に、RoPE(Rotary Positional Embedding)は、各入力ベクトルをその絶対位置に基づいて回転させ、線形時間からシーケンスの長さを取る。
この研究は、100から50,000時間に及ぶトレーニングデータを用いて、さまざまなASRタスクにわたるRoPEを評価する。
- 参考スコア(独自算出の注目度): 17.360059094663182
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Self-attention relies on positional embeddings to encode input order. Relative Position (RelPos) embeddings are widely used in Automatic Speech Recognition (ASR). However, RelPos has quadratic time complexity to input length and is often incompatible with fast GPU implementations of attention. In contrast, Rotary Positional Embedding (RoPE) rotates each input vector based on its absolute position, taking linear time to sequence length, implicitly encoding relative distances through self-attention dot products. Thus, it is usually compatible with efficient attention. However, its use in ASR remains underexplored. This work evaluates RoPE across diverse ASR tasks with training data ranging from 100 to 50,000 hours, covering various speech types (read, spontaneous, clean, noisy) and different accents in both streaming and non-streaming settings. ASR error rates are similar or better than RelPos, while training time is reduced by up to 21%. Code is available via the SpeechBrain toolkit.
- Abstract(参考訳): 自己注意は入力順序をエンコードするために位置埋め込みに依存する。
相対位置(RelPos)埋め込みは自動音声認識(ASR)で広く使われている。
しかし、RelPosは入力長に2次時間複雑さがあり、しばしば注目の高速GPU実装と互換性がない。
対照的にRotary Positional Embedding (RoPE)は、各入力ベクトルをその絶対位置に基づいて回転させ、線形時間からシーケンス長、暗黙的に自己注意点生成物を通して相対距離を符号化する。
したがって、通常は効率のよい注意と互換性がある。
しかし、ASRでの使用は未定である。
この研究は、ストリーミングと非ストリーミングの両方の設定において、さまざまな音声タイプ(読み、自然発生、クリーン、ノイズ)と異なるアクセントをカバーする、100から50,000時間に及ぶトレーニングデータを用いて、さまざまなASRタスクにわたるRoPEを評価する。
ASRエラー率はRelPosと似ているか良いが、トレーニング時間は最大21%削減される。
コードはSpeechBrainツールキット経由で利用できる。
関連論文リスト
- DRoPE: Directional Rotary Position Embedding for Efficient Agent Interaction Modeling [9.86959003425198]
Directional Rotary Position Embedding (DRoPE) は、もともと自然言語処理で開発されたRotary Position Embedding (RoPE) の新規な適応である。
DRoPEは、RoPEの2次元回転変換に均一なIDスカラーを導入することで制限を克服する。
実験的な評価により、DRoPEの性能は良好であり、空間の複雑さは著しく低下した。
論文 参考訳(メタデータ) (2025-03-19T09:23:09Z) - Are Transformers in Pre-trained LM A Good ASR Encoder? An Empirical Study [52.91899050612153]
自動音声認識(ASR)のためのエンコーダとして再利用された事前訓練言語モデル(PLM)内のトランスフォーマー
本研究は,事前学習したLMのトランスフォーマーを組み込んだASRタスクにおいて,文字誤り率 (CER) とワード誤り率 (WER) の顕著な改善が認められた。
このことは、事前訓練されたトランスフォーマーに埋め込まれたセマンティックな技術を活用して、ASRシステムの能力を向上させる可能性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-09-26T11:31:18Z) - Resonance RoPE: Improving Context Length Generalization of Large Language Models [37.749813693281254]
本稿では,ロータリー位置埋め込み(RoPE)を備えた大規模言語モデル(LLM)におけるTSTLシナリオの課題について述べる。
本稿では,TSTLシナリオの一般化ギャップを狭めるための新しい手法であるResonance RoPEを紹介する。
本稿では,TSTLシナリオの微粒化挙動解析に特化して設計された,新しい合成ベンチマークPosGenを提案する。
論文 参考訳(メタデータ) (2024-02-29T19:02:03Z) - AV-RIR: Audio-Visual Room Impulse Response Estimation [49.469389715876915]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。
本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文 参考訳(メタデータ) (2023-11-30T22:58:30Z) - SPE-Net: Boosting Point Cloud Analysis via Rotation Robustness
Enhancement [118.20816888815658]
SPE-Netという名前の3Dポイントクラウドアプリケーションに適した新しいディープアーキテクチャを提案する。
埋め込みSelective Position variant' の手順は、入力の根底にある回転条件に効果的に対応できる注意機構に依存している。
SPE-Netと関連する仮説の利点を4つのベンチマークで示し、SOTA法よりも回転試験データと回転試験データの両方に明らかな改善点を示した。
論文 参考訳(メタデータ) (2022-11-15T15:59:09Z) - Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-08T16:38:24Z) - A Comparative Study on Non-Autoregressive Modelings for Speech-to-Text
Generation [59.64193903397301]
非自己回帰モデル (NAR) はシーケンス内の複数の出力を同時に生成し、自動回帰ベースラインと比較して精度低下のコストで推論速度を著しく低減する。
エンドツーエンド自動音声認識(ASR)のための様々なNARモデリング手法の比較研究を行う。
各種課題の成果は, 精度・速度トレードオフや長文発話に対する頑健性など, NAR ASR の理解を深める上で興味深い結果をもたらす。
論文 参考訳(メタデータ) (2021-10-11T13:05:06Z) - Conformer-based End-to-end Speech Recognition With Rotary Position
Embedding [11.428057887454008]
畳み込み強化変圧器(コンフォーマ)に回転位置埋め込み(RoPE)を導入する。
RoPEは、絶対位置情報を回転行列によって入力シーケンスにエンコードし、自然に明示的な相対位置情報を自己保持モジュールに組み込む。
提案モデルでは,LbriSpeechコーパスの試験クリーンおよびテスト他のセットに対して,コンバータの単語誤り率を8.70%,コンバータの7.27%削減する。
論文 参考訳(メタデータ) (2021-07-13T08:07:22Z) - RoFormer: Enhanced Transformer with Rotary Position Embedding [9.01819510933327]
位置情報を効果的に活用するためのRotary Position Embedding(RoPE)という新しい手法を提案する。
RoPEは絶対位置を回転行列でエンコードし、一方、自己アテンションの定式化に明示的な相対位置依存性を組み込む。
様々な長文分類ベンチマークデータセットを用いて、回転位置埋め込み(RoFormer)と呼ばれる拡張変換器の評価を行った。
論文 参考訳(メタデータ) (2021-04-20T09:54:06Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。