Fugu-MT 論文翻訳(概要): Whisper in Medusa's Ear: Multi-head Efficient Decoding for Transformer-based ASR

論文の概要: Whisper in Medusa's Ear: Multi-head Efficient Decoding for Transformer-based ASR

arxiv url: http://arxiv.org/abs/2409.15869v1
Date: Tue, 24 Sep 2024 08:42:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-26 08:21:18.673895
Title: Whisper in Medusa's Ear: Multi-head Efficient Decoding for Transformer-based ASR
Title（参考訳）: メデューサ耳のwhisper: Transformer-based ASRのためのマルチヘッド効率デコーディング
Authors: Yael Segal-Feldman, Aviv Shamsian, Aviv Navon, Gill Hetz, Joseph Keshet,
Abstract要約: 我々はWhisper-Medusaという,単語誤り率(WER)に最小限の影響で処理速度を向上する手法を紹介した。提案モデルでは,反復毎に複数のトークンを予測することで,OpenAIのWhisperアーキテクチャを拡張した。学習環境やデータセットによってWhisper-Medusaの有効性を示す。
参考スコア（独自算出の注目度）: 16.461834599439403
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large transformer-based models have significant potential for speech transcription and translation. Their self-attention mechanisms and parallel processing enable them to capture complex patterns and dependencies in audio sequences. However, this potential comes with challenges, as these large and computationally intensive models lead to slow inference speeds. Various optimization strategies have been proposed to improve performance, including efficient hardware utilization and algorithmic enhancements. In this paper, we introduce Whisper-Medusa, a novel approach designed to enhance processing speed with minimal impact on Word Error Rate (WER). The proposed model extends the OpenAI's Whisper architecture by predicting multiple tokens per iteration, resulting in a 50% reduction in latency. We showcase the effectiveness of Whisper-Medusa across different learning setups and datasets.
Abstract（参考訳）: 変圧器をベースとした大規模モデルは、音声の書き起こしや翻訳に有意な可能性を秘めている。自己アテンション機構と並列処理により、オーディオシーケンスの複雑なパターンや依存関係をキャプチャできる。しかし、これらの大規模で計算集約的なモデルは推論速度を遅くするので、この可能性には課題が伴う。ハードウェアの効率的な利用やアルゴリズムの強化など,様々な最適化手法が提案されている。本稿ではWhisper-Medusaを提案する。WER(Word Error Rate)に最小限の影響で処理速度を向上する新しい手法である。提案したモデルでは,反復毎に複数のトークンを予測することで,OpenAIのWhisperアーキテクチャを拡張している。学習環境やデータセットによってWhisper-Medusaの有効性を示す。

関連論文リスト

Attend to Not Attended: Structure-then-Detail Token Merging for Post-training DiT Acceleration [24.85624444212476]
本研究は,拡散過程を伴わない領域における不規則な特徴冗長性への参加という,新しい概念を提案する。我々は, 特徴冗長度の位置と度合いを, 構造的詳細記述に基づく分析を行った。 SDTMは,特徴冗長性を動的に圧縮する構造的詳細トークンマージ手法である。
論文参考訳（メタデータ） (2025-05-16T21:27:38Z)
One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文参考訳（メタデータ） (2025-03-09T09:39:57Z)
LiteASR: Efficient Automatic Speech Recognition with Low-Rank Approximation [23.51191930926061]
本稿では,ASRエンコーダの低ランク圧縮方式であるLiteASRを導入する。評価の結果,Whisperの大容量v3エンコーダサイズを50%以上圧縮し,Whisper媒体サイズと転写精度を比較検討した。
論文参考訳（メタデータ） (2025-02-27T22:52:21Z)
Sliding Window Attention Training for Efficient Large Language Models [55.56483740523027]
SWATを導入し,スライディングウインドウ・アテンション・トレーニング(Sliding Window Attention Training)により,より効率的な長文処理を実現する。本稿では,まず,変圧器の非効率性について,ソフトマックス動作のばらつきから生じる注意シンク現象を考察する。実験により、SWATは8つのベンチマーク上での最先端の線形リカレントアーキテクチャと比較してSOTA性能を達成することが示された。
論文参考訳（メタデータ） (2025-02-26T05:31:44Z)
CAT Pruning: Cluster-Aware Token Pruning For Text-to-Image Diffusion Models [5.406829638216823]
拡散モデルは、特にテキスト対画像合成の領域において、生成タスクに革命をもたらした。しかし、反復的なデノゲーションプロセスは、かなりの計算資源を必要とする。本稿では、トークンレベルのプルーニングとキャッシュ技術を統合して、この計算課題に対処する新しい加速戦略を提案する。
論文参考訳（メタデータ） (2025-02-01T13:46:02Z)
Shared DIFF Transformer [4.289692335378565]
DIFF変換器は、ノイズを抑えながら、関連するコンテキストに焦点をあてることにより、アテンションアロケーションを改善する。本稿では,大域的パターンをモデル化するための共有基底行列を導入することにより,差動増幅器のアイデアに基づく共有DIFF変換器を提案する。この設計はパラメータの冗長性を著しく低減し、効率を向上し、強いノイズ抑制機能を保持する。
論文参考訳（メタデータ） (2025-01-29T09:29:07Z)
USEFUSE: Utile Stride for Enhanced Performance in Fused Layer Architecture of Deep Neural Networks [0.6435156676256051]
本研究では,低レイテンシ左から右へのビットシリアル演算を用いた畳み込みのためのSum-of-Products (SOP)ユニットを提案する。有効メカニズムは、ReLU層の後、非効率な畳み込みを検出し、スキップし、消費電力を最小化する。ひとつはミッションクリティカルなアプリケーションの応答時間を最小限にすること、もうひとつはリソースに制約のあるデバイスに同じレイテンシでフォーカスすることである。
論文参考訳（メタデータ） (2024-12-18T11:04:58Z)
A Theoretical Perspective for Speculative Decoding Algorithm [60.79447486066416]
EmphSpeculative Decodingは、小さなモデルを使用して、ドラフトトークンのシーケンスと、検証のための大きなモデルをサンプリングする。本稿では,マルコフ連鎖抽象化による復号化問題を概念化し,理論的な観点から,鍵特性,エファンアウトプットの品質,推論加速度について考察する。
論文参考訳（メタデータ） (2024-10-30T01:53:04Z)
EchoAtt: Attend, Copy, then Adjust for More Efficient Large Language Models [29.57891007810509]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて優れた性能を示している。本稿では,レイヤ間の注目パターンの類似性を解析し,活用することにより,トランスフォーマーベースモデルの最適化を目的とした,新しいフレームワークであるEchoAttを紹介する。 TinyLLaMA-1.1Bによる最良の結果は、EchoAttが推論速度を15%改善し、トレーニング速度を25%改善し、パラメータ数を約4%削減し、ゼロショット性能を改善したことを示している。
論文参考訳（メタデータ） (2024-09-22T21:08:37Z)
Efficient Diffusion Transformer with Step-wise Dynamic Attention Mediators [83.48423407316713]
本稿では,クエリとキーを別々に扱うために,追加の仲介者トークンを組み込んだ新しい拡散トランスフォーマーフレームワークを提案する。本モデルでは, 正確な非曖昧な段階を呈し, 詳細に富んだ段階へと徐々に遷移する。本手法は,最近のSiTと統合した場合に,最先端のFIDスコア2.01を達成する。
論文参考訳（メタデータ） (2024-08-11T07:01:39Z)
Inference Optimization of Foundation Models on AI Accelerators [68.24450520773688]
トランスフォーマーアーキテクチャを備えた大規模言語モデル(LLM)を含む強力な基礎モデルは、ジェネレーティブAIの新たな時代を支えている。モデルパラメータの数が数十億に達すると、実際のシナリオにおける推論コストと高いレイテンシーが排除される。このチュートリアルでは、AIアクセラレータを用いた補完推論最適化テクニックに関する包括的な議論を行っている。
論文参考訳（メタデータ） (2024-07-12T09:24:34Z)
Pre-training Feature Guided Diffusion Model for Speech Enhancement [37.88469730135598]
音声強調は、雑音環境下での音声の明瞭さと明瞭さを著しく向上させる。本稿では,効率的な音声強調に適した事前学習機能誘導拡散モデルを提案する。
論文参考訳（メタデータ） (2024-06-11T18:22:59Z)
A-SDM: Accelerating Stable Diffusion through Model Assembly and Feature Inheritance Strategies [51.7643024367548]
安定拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)生成のための一般的かつ効果的なモデルである。本研究では、SDMにおける冗長計算の削減と、チューニング不要とチューニング不要の両方の手法によるモデルの最適化に焦点をあてる。
論文参考訳（メタデータ） (2024-05-31T21:47:05Z)
Variational Bayes image restoration with compressive autoencoders [4.879530644978008]
逆問題の正規化は、計算イメージングにおいて最重要となる。本研究では,まず,最先端生成モデルの代わりに圧縮型オートエンコーダを提案する。第2の貢献として、変分ベイズ潜時推定(VBLE)アルゴリズムを導入する。
論文参考訳（メタデータ） (2023-11-29T15:49:31Z)
DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。 DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文参考訳（メタデータ） (2023-10-18T17:07:05Z)
Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文参考訳（メタデータ） (2023-04-22T15:32:59Z)
Improving Autoregressive NLP Tasks via Modular Linearized Attention [0.20305676256390928]
本稿では,推定品質を最大化しつつ,顕著な高速化を実現するために,モジュラリニアライナライズドアテンション(MLA)を提案する。本稿では、音声からテキストへのニューラルマシン翻訳(S2T NMT)、音声からテキストへの同時翻訳(SimulST)、自動回帰テキスト・トゥ・スペクトログラムなど、いくつかの自己回帰NLPタスクに対して、このアプローチを検証する。
論文参考訳（メタデータ） (2023-04-17T17:25:48Z)
Easy and Efficient Transformer : Scalable Inference Solution For large NLP mode [14.321889138798072]
本稿では,超大規模事前学習モデル最適化手法を提案する。推論エンジンとして Easy and Efficient Transformer (EET) が提案されている。 EETは、コンテキストの長さに応じて1.5-15倍のスピードアップを達成します。
論文参考訳（メタデータ） (2021-04-26T11:00:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。