Fugu-MT 論文翻訳(概要): Benchmarking Rotary Position Embeddings for Automatic Speech Recognition

論文の概要: Benchmarking Rotary Position Embeddings for Automatic Speech Recognition

arxiv url: http://arxiv.org/abs/2501.06051v1
Date: Fri, 10 Jan 2025 15:30:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-13 18:34:15.291088
Title: Benchmarking Rotary Position Embeddings for Automatic Speech Recognition
Title（参考訳）: 自動音声認識のためのロータリー位置埋め込みのベンチマーク
Authors: Shucong Zhang, Titouan Parcollet, Rogier van Dalen, Sourav Bhattacharya,
Abstract要約: RoPE(Rotary Position Embedding)は、Transformerベースのモデルにおいて、相対的および絶対的な位置情報を符号化する。 RoPEは、現在広く使われている相対的な位置埋め込みと比較して、一貫して低い誤差率を達成する。さらなる研究を容易にするため、我々はSpeechBrainツールキットを通じて、実装とすべての実験的なレシピをリリースする。
参考スコア（独自算出の注目度）: 17.360059094663182
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Rotary Position Embedding (RoPE) encodes relative and absolute positional information in Transformer-based models through rotation matrices applied to input vectors within sequences. While RoPE has demonstrated superior performance compared to other positional embedding technologies in natural language processing tasks, its effectiveness in speech processing applications remains understudied. In this work, we conduct a comprehensive evaluation of RoPE across diverse automatic speech recognition (ASR) tasks. Our experimental results demonstrate that for ASR tasks, RoPE consistently achieves lower error rates compared to the currently widely used relative positional embedding. To facilitate further research, we release the implementation and all experimental recipes through the SpeechBrain toolkit.
Abstract（参考訳）: RoPE(Rotary Position Embedding)は、シークエンス内の入力ベクトルに適用される回転行列を通じてトランスフォーマーモデルにおける相対的および絶対的な位置情報を符号化する。 RoPEは、自然言語処理タスクにおける他の位置埋め込み技術と比較して優れた性能を示しているが、音声処理アプリケーションにおけるその有効性はまだ実証されていない。本研究では,多様な自動音声認識(ASR)タスクにおけるRoPEの包括的評価を行う。実験結果から,ASRタスクの場合,RoPEは,現在広く使われている相対的な位置埋め込みよりも低い誤差率を連続的に達成していることがわかった。さらなる研究を容易にするため、我々はSpeechBrainツールキットを通じて、実装とすべての実験的なレシピをリリースする。

関連論文リスト

Moonshine v2: Ergodic Streaming Encoder ASR for Latency-Critical Speech Applications [0.8691520242484038]
フルアテンショントランスフォーマーエンコーダは、音声認識(ASR)のための強力な精度ベースラインのままである本稿では、スライディングウインドウ自己アテンションを用いて、有界低レイテンシ推論を実現するエルゴードストリーミングエンコーダASRモデルv2を紹介する。提案モデルでは,標準ベンチマーク間での単語誤り率の状態を達成し,モデルのサイズを6倍にし,性能を著しく向上した。
論文参考訳（メタデータ） (2026-02-12T18:20:45Z)
Whisfusion: Parallel ASR Decoding via a Diffusion Transformer [7.327454599174306]
Whisfusionは、トレーニング済みのWhisperエンコーダをテキスト拡散デコーダで融合するフレームワークである。パラメータ効率細調整(PEFT)によって訓練された軽量なクロスアテンションアダプタは、2つのモードをブリッジする。 LibriSpeech (960h)のみに微調整されたWhisfusionは、Whisper-tinyよりも低いWERを実現し、短いオーディオに匹敵するレイテンシを提供する。
論文参考訳（メタデータ） (2025-08-09T17:20:54Z)
Rotary Masked Autoencoders are Versatile Learners [0.0]
ロータリーマスク付きオートエンコーダ(RoMAE)について紹介する。 RoMAEはMasked Autoencoder(MAE)の拡張であり、多次元連続位置情報による表現学習を可能にする。本稿では,不規則かつ多変量な時系列,画像,音声など,ロマエの性能について紹介する。
論文参考訳（メタデータ） (2025-05-26T21:45:18Z)
DRoPE: Directional Rotary Position Embedding for Efficient Agent Interaction Modeling [9.86959003425198]
Directional Rotary Position Embedding (DRoPE) は、もともと自然言語処理で開発されたRotary Position Embedding (RoPE) の新規な適応である。 DRoPEは、RoPEの2次元回転変換に均一なIDスカラーを導入することで制限を克服する。実験的な評価により、DRoPEの性能は良好であり、空間の複雑さは著しく低下した。
論文参考訳（メタデータ） (2025-03-19T09:23:09Z)
When Precision Meets Position: BFloat16 Breaks Down RoPE in Long-Context Training [51.23520027773028]
コンテキストウィンドウサイズの拡張により、大きな言語モデルでは、より長いシーケンスを処理し、より複雑なタスクを処理できる。我々は,RoPEをBFloat16フォーマットで使用すると,数値的な問題が発生し,目的とする相対的位置エンコーディングから逸脱してしまうことを観察した。我々は,BFloat16による数値問題を軽減するプラグイン・アンド・プレイアテンション法であるAnchorAttentionを開発した。
論文参考訳（メタデータ） (2024-11-20T17:22:31Z)
Are Transformers in Pre-trained LM A Good ASR Encoder? An Empirical Study [52.91899050612153]
自動音声認識(ASR)のためのエンコーダとして再利用された事前訓練言語モデル(PLM)内のトランスフォーマー本研究は,事前学習したLMのトランスフォーマーを組み込んだASRタスクにおいて,文字誤り率 (CER) とワード誤り率 (WER) の顕著な改善が認められた。このことは、事前訓練されたトランスフォーマーに埋め込まれたセマンティックな技術を活用して、ASRシステムの能力を向上させる可能性を浮き彫りにしている。
論文参考訳（メタデータ） (2024-09-26T11:31:18Z)
Resonance RoPE: Improving Context Length Generalization of Large Language Models [37.749813693281254]
本稿では,ロータリー位置埋め込み(RoPE)を備えた大規模言語モデル(LLM)におけるTSTLシナリオの課題について述べる。本稿では,TSTLシナリオの一般化ギャップを狭めるための新しい手法であるResonance RoPEを紹介する。本稿では,TSTLシナリオの微粒化挙動解析に特化して設計された,新しい合成ベンチマークPosGenを提案する。
論文参考訳（メタデータ） (2024-02-29T19:02:03Z)
AV-RIR: Audio-Visual Room Impulse Response Estimation [49.469389715876915]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文参考訳（メタデータ） (2023-11-30T22:58:30Z)
SPE-Net: Boosting Point Cloud Analysis via Rotation Robustness Enhancement [118.20816888815658]
SPE-Netという名前の3Dポイントクラウドアプリケーションに適した新しいディープアーキテクチャを提案する。埋め込みSelective Position variant' の手順は、入力の根底にある回転条件に効果的に対応できる注意機構に依存している。 SPE-Netと関連する仮説の利点を4つのベンチマークで示し、SOTA法よりも回転試験データと回転試験データの両方に明らかな改善点を示した。
論文参考訳（メタデータ） (2022-11-15T15:59:09Z)
Rapid Person Re-Identification via Sub-space Consistency Regularization [51.76876061721556]
Person Re-Identification (ReID) は、歩行者を分離したカメラで識別する。実値特徴記述子を用いた既存のReID法は精度が高いが、ユークリッド距離計算が遅いため効率が低い。本稿では,ReID 処理を 0.25 倍高速化するサブスペース一貫性規則化 (SCR) アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-07-13T02:44:05Z)
Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。 3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文参考訳（メタデータ） (2022-06-08T16:38:24Z)
A Comparative Study on Non-Autoregressive Modelings for Speech-to-Text Generation [59.64193903397301]
非自己回帰モデル (NAR) はシーケンス内の複数の出力を同時に生成し、自動回帰ベースラインと比較して精度低下のコストで推論速度を著しく低減する。エンドツーエンド自動音声認識(ASR)のための様々なNARモデリング手法の比較研究を行う。各種課題の成果は, 精度・速度トレードオフや長文発話に対する頑健性など, NAR ASR の理解を深める上で興味深い結果をもたらす。
論文参考訳（メタデータ） (2021-10-11T13:05:06Z)
FAST-RIR: Fast neural diffuse room impulse response generator [81.96114823691343]
本研究では, ニューラルネットワークを用いた高速拡散室インパルス応答生成器(FAST-RIR)について, 所定の音響環境に対して室インパルス応答(RIR)を生成する。我々のFAST-RIRは、平均誤差0.02sで与えられた入力残響時間に対してRIRを生成することができる。提案するバッチサイズ1のFAST-RIRは,CPU上の拡散音響シミュレータ(DAS)の400倍高速であることを示す。
論文参考訳（メタデータ） (2021-10-07T05:21:01Z)
Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。エンドツーエンドのNAR音声認識システムを提案する。提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文参考訳（メタデータ） (2021-07-20T11:42:26Z)
Conformer-based End-to-end Speech Recognition With Rotary Position Embedding [11.428057887454008]
畳み込み強化変圧器(コンフォーマ)に回転位置埋め込み(RoPE)を導入する。 RoPEは、絶対位置情報を回転行列によって入力シーケンスにエンコードし、自然に明示的な相対位置情報を自己保持モジュールに組み込む。提案モデルでは,LbriSpeechコーパスの試験クリーンおよびテスト他のセットに対して,コンバータの単語誤り率を8.70%,コンバータの7.27%削減する。
論文参考訳（メタデータ） (2021-07-13T08:07:22Z)
RoFormer: Enhanced Transformer with Rotary Position Embedding [9.01819510933327]
位置情報を効果的に活用するためのRotary Position Embedding(RoPE)という新しい手法を提案する。 RoPEは絶対位置を回転行列でエンコードし、一方、自己アテンションの定式化に明示的な相対位置依存性を組み込む。様々な長文分類ベンチマークデータセットを用いて、回転位置埋め込み(RoFormer)と呼ばれる拡張変換器の評価を行った。
論文参考訳（メタデータ） (2021-04-20T09:54:06Z)
Advanced Long-context End-to-end Speech Recognition Using Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文参考訳（メタデータ） (2021-04-19T16:18:00Z)
Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。 APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文参考訳（メタデータ） (2020-04-09T09:26:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。