論文の概要: Whisper in Medusa's Ear: Multi-head Efficient Decoding for Transformer-based ASR
- arxiv url: http://arxiv.org/abs/2409.15869v1
- Date: Tue, 24 Sep 2024 08:42:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 08:21:18.673895
- Title: Whisper in Medusa's Ear: Multi-head Efficient Decoding for Transformer-based ASR
- Title(参考訳): メデューサ耳のwhisper: Transformer-based ASRのためのマルチヘッド効率デコーディング
- Authors: Yael Segal-Feldman, Aviv Shamsian, Aviv Navon, Gill Hetz, Joseph Keshet,
- Abstract要約: 我々はWhisper-Medusaという,単語誤り率(WER)に最小限の影響で処理速度を向上する手法を紹介した。
提案モデルでは,反復毎に複数のトークンを予測することで,OpenAIのWhisperアーキテクチャを拡張した。
学習環境やデータセットによってWhisper-Medusaの有効性を示す。
- 参考スコア(独自算出の注目度): 16.461834599439403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large transformer-based models have significant potential for speech transcription and translation. Their self-attention mechanisms and parallel processing enable them to capture complex patterns and dependencies in audio sequences. However, this potential comes with challenges, as these large and computationally intensive models lead to slow inference speeds. Various optimization strategies have been proposed to improve performance, including efficient hardware utilization and algorithmic enhancements. In this paper, we introduce Whisper-Medusa, a novel approach designed to enhance processing speed with minimal impact on Word Error Rate (WER). The proposed model extends the OpenAI's Whisper architecture by predicting multiple tokens per iteration, resulting in a 50% reduction in latency. We showcase the effectiveness of Whisper-Medusa across different learning setups and datasets.
- Abstract(参考訳): 変圧器をベースとした大規模モデルは、音声の書き起こしや翻訳に有意な可能性を秘めている。
自己アテンション機構と並列処理により、オーディオシーケンスの複雑なパターンや依存関係をキャプチャできる。
しかし、これらの大規模で計算集約的なモデルは推論速度を遅くするので、この可能性には課題が伴う。
ハードウェアの効率的な利用やアルゴリズムの強化など,様々な最適化手法が提案されている。
本稿ではWhisper-Medusaを提案する。WER(Word Error Rate)に最小限の影響で処理速度を向上する新しい手法である。
提案したモデルでは,反復毎に複数のトークンを予測することで,OpenAIのWhisperアーキテクチャを拡張している。
学習環境やデータセットによってWhisper-Medusaの有効性を示す。
関連論文リスト
- Joint Transmit and Pinching Beamforming for PASS: Optimization-Based or Learning-Based? [89.05848771674773]
MISO (Multiple-input Single-output) フレームワークを提案する。
それは複数の導波路で構成されており、多数の低コストアンテナ(PA)を備えている。
PAの位置は、大規模パスと空間の両方にまたがるように再構成することができる。
論文 参考訳(メタデータ) (2025-02-12T18:54:10Z) - CAT Pruning: Cluster-Aware Token Pruning For Text-to-Image Diffusion Models [5.406829638216823]
拡散モデルは、特にテキスト対画像合成の領域において、生成タスクに革命をもたらした。
しかし、反復的なデノゲーションプロセスは、かなりの計算資源を必要とする。
本稿では、トークンレベルのプルーニングとキャッシュ技術を統合して、この計算課題に対処する新しい加速戦略を提案する。
論文 参考訳(メタデータ) (2025-02-01T13:46:02Z) - Shared DIFF Transformer [4.289692335378565]
DIFF変換器は、ノイズを抑えながら、関連するコンテキストに焦点をあてることにより、アテンションアロケーションを改善する。
本稿では,大域的パターンをモデル化するための共有基底行列を導入することにより,差動増幅器のアイデアに基づく共有DIFF変換器を提案する。
この設計はパラメータの冗長性を著しく低減し、効率を向上し、強いノイズ抑制機能を保持する。
論文 参考訳(メタデータ) (2025-01-29T09:29:07Z) - USEFUSE: Utile Stride for Enhanced Performance in Fused Layer Architecture of Deep Neural Networks [0.6435156676256051]
本研究では,低レイテンシ左から右へのビットシリアル演算を用いた畳み込みのためのSum-of-Products (SOP)ユニットを提案する。
有効メカニズムは、ReLU層の後、非効率な畳み込みを検出し、スキップし、消費電力を最小化する。
ひとつはミッションクリティカルなアプリケーションの応答時間を最小限にすること、もうひとつはリソースに制約のあるデバイスに同じレイテンシでフォーカスすることである。
論文 参考訳(メタデータ) (2024-12-18T11:04:58Z) - A Theoretical Perspective for Speculative Decoding Algorithm [60.79447486066416]
EmphSpeculative Decodingは、小さなモデルを使用して、ドラフトトークンのシーケンスと、検証のための大きなモデルをサンプリングする。
本稿では,マルコフ連鎖抽象化による復号化問題を概念化し,理論的な観点から,鍵特性,エファンアウトプットの品質,推論加速度について考察する。
論文 参考訳(メタデータ) (2024-10-30T01:53:04Z) - Efficient Diffusion Transformer with Step-wise Dynamic Attention Mediators [83.48423407316713]
本稿では,クエリとキーを別々に扱うために,追加の仲介者トークンを組み込んだ新しい拡散トランスフォーマーフレームワークを提案する。
本モデルでは, 正確な非曖昧な段階を呈し, 詳細に富んだ段階へと徐々に遷移する。
本手法は,最近のSiTと統合した場合に,最先端のFIDスコア2.01を達成する。
論文 参考訳(メタデータ) (2024-08-11T07:01:39Z) - Inference Optimization of Foundation Models on AI Accelerators [68.24450520773688]
トランスフォーマーアーキテクチャを備えた大規模言語モデル(LLM)を含む強力な基礎モデルは、ジェネレーティブAIの新たな時代を支えている。
モデルパラメータの数が数十億に達すると、実際のシナリオにおける推論コストと高いレイテンシーが排除される。
このチュートリアルでは、AIアクセラレータを用いた補完推論最適化テクニックに関する包括的な議論を行っている。
論文 参考訳(メタデータ) (2024-07-12T09:24:34Z) - Improved Noise Schedule for Diffusion Training [51.849746576387375]
本稿では,拡散モデルのトレーニングを強化するため,ノイズスケジュールを設計するための新しい手法を提案する。
我々は,標準のコサインスケジュールよりもノイズスケジュールの方が優れていることを実証的に示す。
論文 参考訳(メタデータ) (2024-07-03T17:34:55Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Improving Autoregressive NLP Tasks via Modular Linearized Attention [0.20305676256390928]
本稿では,推定品質を最大化しつつ,顕著な高速化を実現するために,モジュラリニアライナライズドアテンション(MLA)を提案する。
本稿では、音声からテキストへのニューラルマシン翻訳(S2T NMT)、音声からテキストへの同時翻訳(SimulST)、自動回帰テキスト・トゥ・スペクトログラムなど、いくつかの自己回帰NLPタスクに対して、このアプローチを検証する。
論文 参考訳(メタデータ) (2023-04-17T17:25:48Z) - Easy and Efficient Transformer : Scalable Inference Solution For large
NLP mode [14.321889138798072]
本稿では,超大規模事前学習モデル最適化手法を提案する。
推論エンジンとして Easy and Efficient Transformer (EET) が提案されている。
EETは、コンテキストの長さに応じて1.5-15倍のスピードアップを達成します。
論文 参考訳(メタデータ) (2021-04-26T11:00:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。