論文の概要: Accurate, fast, cheap: Choose three. Replacing Multi-Head-Attention with Bidirectional Recurrent Attention for Long-Form ASR
- arxiv url: http://arxiv.org/abs/2506.19761v1
- Date: Tue, 24 Jun 2025 16:21:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.720171
- Title: Accurate, fast, cheap: Choose three. Replacing Multi-Head-Attention with Bidirectional Recurrent Attention for Long-Form ASR
- Title(参考訳): 長期ASRにおける双方向繰り返し注意によるマルチヘッドアテンションの置き換え
- Authors: Martin Ratajczak, Jean-Philippe Robichaud, Jennifer Drexler Fox,
- Abstract要約: 我々は、ASRの線形複雑度再帰的注意層を調査した作業に基づいて構築する。
双方向RA層は, 短・長の両方のアプリケーションにおいて, MHAの精度に適合することがわかった。
RA性能をさらに向上し,スループットが44%のLCAよりも精度が向上する長文トレーニングパラダイムを開発した。
- 参考スコア(独自算出の注目度): 2.2530496464901106
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Long-form speech recognition is an application area of increasing research focus. ASR models based on multi-head attention (MHA) are ill-suited to long-form ASR because of their quadratic complexity in sequence length. We build on recent work that has investigated linear complexity recurrent attention (RA) layers for ASR. We find that bidirectional RA layers can match the accuracy of MHA for both short- and long-form applications. We present a strong limited-context attention (LCA) baseline, and show that RA layers are just as accurate while being more efficient. We develop a long-form training paradigm which further improves RA performance, leading to better accuracy than LCA with 44% higher throughput. We also present Direction Dropout, a novel regularization method that improves accuracy, provides fine-grained control of the accuracy/throughput trade-off of bidirectional RA, and enables a new alternating directions decoding mode with even higher throughput.
- Abstract(参考訳): ロングフォーム音声認識は研究の焦点を拡大するための応用分野である。
マルチヘッドアテンション(MHA)に基づくASRモデルは、シーケンス長の2次複雑さのため、長めのASRに不適である。
ASRの線形複雑性再帰的注意層(RA)について検討した最近の研究に基づいて構築した。
双方向RA層はショートフォームとロングフォームの両方のアプリケーションにおいて,MHAの精度に適合することがわかった。
我々は,強い限定コンテキストアテンション(LCA)ベースラインを示し,RA層がより効率的でありながら,同じくらい正確であることを示す。
RA性能をさらに向上し,スループットが44%のLCAよりも精度が向上する長文トレーニングパラダイムを開発した。
また、精度を向上し、双方向RAの精度/スループットトレードオフをきめ細かく制御し、さらに高いスループットで新たな交互方向復号モードを実現する、新たな正規化手法であるDirection Dropoutを提案する。
関連論文リスト
- Probing Deep into Temporal Profile Makes the Infrared Small Target Detector Much Better [63.567886330598945]
赤外線小目標(IRST)検出は、精度、普遍性、堅牢性、効率的な性能を同時に達成する上で困難である。
現在の学習に基づく手法は、空間的領域と短期的領域の両方から"より多くの情報を活用する。
本稿では、IRST検出のための時間次元でのみ計算を行う効率的な深部プローブネットワーク(DeepPro)を提案する。
論文 参考訳(メタデータ) (2025-06-15T08:19:32Z) - Reinforced Informativeness Optimization for Long-Form Retrieval-Augmented Generation [77.10390725623125]
LFQA(Long-form Question answering)は、大規模言語モデルに固有の課題を提示する。
RioRAGは、強化情報性最適化を通じて長めのRAGを進化させる新しい強化学習フレームワークである。
論文 参考訳(メタデータ) (2025-05-27T07:34:41Z) - Learn to Reason Efficiently with Adaptive Length-based Reward Shaping [23.626013831589212]
大規模共振モデル(LRM)は、強化学習(RL)を通して複雑な問題を解く際、顕著な能力を示した。
本稿では,長さに基づく報酬形成のレンズを用いて,様々な効率的な推論手法を定式化する統一フレームワークを提案する。
DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-32Bの実験により、本手法は推論性能と応答長の効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-05-21T15:03:26Z) - Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。
SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-10T17:15:49Z) - GenDR: Lightning Generative Detail Restorator [18.465568249533966]
我々は,より大きい潜伏空間を持つテーラー拡散モデルから抽出した生成詳細復元のための1段階拡散モデルGenDRを提案する。
実験の結果,GenDRは定量的な測定値と視覚的忠実度の両方で最先端の性能を達成できた。
論文 参考訳(メタデータ) (2025-03-09T22:02:18Z) - RAPID: Long-Context Inference with Retrieval-Augmented Speculative Decoding [7.785459677641105]
LLM(Long-context Large Language Model)は、従来の検索拡張世代(RAG)に代わる有望な代替手段を提供する。
本稿ではRAPID(Retrieval-Augmented Speculative Decoding)を提案する。
提案手法は,計算効率を維持しつつ,同一スケールあるいはそれ以上のLLMをRAGドラフトとして機能させる,新たなパラダイムを実現する。
論文 参考訳(メタデータ) (2025-02-27T17:59:36Z) - Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。
より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。
我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文 参考訳(メタデータ) (2024-05-08T11:09:24Z) - A Long Way to Go: Investigating Length Correlations in RLHF [59.49656695716066]
本稿では, 応答長の最適化がRLHFの重要な要因であることを示す。
報酬の改善は、他の機能ではなく、レスポンス長の増加によって大きく引き起こされると思います。
純粋に長さベースの報酬でさえ、教師付き微調整モデルよりも下流のRLHFの改善を再現する。
論文 参考訳(メタデータ) (2023-10-05T17:38:28Z) - Directional ASR: A New Paradigm for E2E Multi-Speaker Speech Recognition
with Source Localization [73.62550438861942]
本稿では、指向性自動音声認識(D-ASR)と呼ばれる、エンドツーエンドのニューラルネットワーク方式で遠距離場マルチスピーカデータを処理するための新しいパラダイムを提案する。
D-ASRでは、マイクロホンアレイに対するソースの方位角を潜時変数として定義する。
論文 参考訳(メタデータ) (2020-10-30T20:26:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。