論文の概要: Do we really need Self-Attention for Streaming Automatic Speech Recognition?
- arxiv url: http://arxiv.org/abs/2601.19960v1
- Date: Tue, 27 Jan 2026 08:07:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.610695
- Title: Do we really need Self-Attention for Streaming Automatic Speech Recognition?
- Title(参考訳): 音声認識における自己認識は本当に必要か?
- Authors: Youness Dkhissi, Valentin Vielzeuf, Elys Allesiardo, Anthony Larcher,
- Abstract要約: 我々は、トランスモデルに関連する高い計算要求とレイテンシの問題が、ストリーミングアプリケーションとうまく一致していないことを論じる。
最初の試みとして、自己認識の代わりに変形可能な畳み込みを用いて、ストリーミング音声認識の計算コストを削減できることを示す。
- 参考スコア(独自算出の注目度): 3.0406449751520754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based architectures are the most used architectures in many deep learning fields like Natural Language Processing, Computer Vision or Speech processing. It may encourage the direct use of Transformers in the constrained tasks, without questioning whether it will yield the same benefits as in standard tasks. Given specific constraints, it is essential to evaluate the relevance of transformer models. This work questions the suitability of transformers for specific domains. We argue that the high computational requirements and latency issues associated with these models do not align well with streaming applications. Our study promotes the search for alternative strategies to improve efficiency without sacrificing performance. In light of this observation, our paper critically examines the usefulness of transformer architecture in such constrained environments. As a first attempt, we show that the computational cost for Streaming Automatic Speech Recognition (ASR) can be reduced using deformable convolution instead of Self-Attention. Furthermore, we show that Self-Attention mechanisms can be entirely removed and not replaced, without observing significant degradation in the Word Error Rate.
- Abstract(参考訳): トランスフォーマーベースのアーキテクチャは、自然言語処理、コンピュータビジョン、音声処理など多くのディープラーニング分野で最も使われているアーキテクチャである。
これは、制約されたタスクでTransformerを直接使用することを奨励するが、標準タスクと同じ利点をもたらすかどうか疑問に思うことはない。
特定の制約を前提として、トランスモデルの妥当性を評価することが不可欠である。
この研究は、特定の領域に対する変換器の適合性に疑問を呈する。
これらのモデルに関連する高い計算要求とレイテンシの問題は、ストリーミングアプリケーションとうまく一致していない、と我々は主張する。
本研究は, 性能を犠牲にすることなく, 効率向上のための代替戦略の探索を促進するものである。
本報告では,このような制約環境下でのトランスフォーマーアーキテクチャの有用性を批判的に検討する。
最初の試みとして、自己認識の代わりに変形可能な畳み込みを用いて、ストリーミング自動音声認識(ASR)の計算コストを削減可能であることを示す。
さらに,単語誤り率を著しく低下させることなく,自己認識機構を完全に取り除き,置き換えることができないことを示す。
関連論文リスト
- On-Chip Learning via Transformer In-Context Learning [0.9353041869660692]
自己アテンションメカニズムでは、各ステップでメインメモリから事前トークンプロジェクションを転送する必要がある。
オンチップの塑性プロセッサを用いて自己注意を計算したニューロモルフィックデコーダのみのトランスモデルを提案する。
論文 参考訳(メタデータ) (2024-10-11T10:54:09Z) - AGaLiTe: Approximate Gated Linear Transformers for Online Reinforcement Learning [7.886461196772644]
コンテクストに依存しない推論コストを提供するトランスフォーマー自己アテンション機構の代替を提案する。
最先端アーキテクチャであるGTrXLと比較して、我々のアプローチでの推論は少なくとも40%安価であり、メモリ使用量を50%以上削減している。
論文 参考訳(メタデータ) (2023-10-24T10:51:50Z) - Recurrent Action Transformer with Memory [39.58317527488534]
本稿では,情報保持を規制するリカレントメモリ機構を組み込んだ新しいモデルアーキテクチャを提案する。
メモリ集約環境(ViZDoom-Two-Colors, T-Maze, Memory Maze, Minigrid-Memory)、古典的アタリゲーム、MuJoCo制御環境について実験を行った。
その結果、メモリの使用は、古典的な環境における結果の維持や改善をしながら、メモリ集約環境におけるパフォーマンスを著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-06-15T19:29:08Z) - When to Use Efficient Self Attention? Profiling Text, Speech and Image
Transformer Variants [39.00433193973159]
本研究は,テキスト,音声,視覚にまたがる自己注意型トランスフォーマーの効率性に関する,最初の統一的研究である。
効率の良いトランスフォーマー変種がバニラモデルよりも効率的になる入力長閾値(タイピング点)を同定する。
そこで本研究では,L-HuBERTを導入した。L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L -HuBERT,L-H
論文 参考訳(メタデータ) (2023-06-14T17:59:02Z) - Robust representations of oil wells' intervals via sparse attention
mechanism [2.604557228169423]
正規化変換器(Reguformers)と呼ばれる効率的な変換器のクラスを導入する。
私たちの実験の焦点は、石油とガスのデータ、すなわちウェルログにあります。
このような問題に対する我々のモデルを評価するために、20以上の井戸からなるウェルログからなる産業規模のオープンデータセットで作業する。
論文 参考訳(メタデータ) (2022-12-29T09:56:33Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - Thinking Like Transformers [64.96770952820691]
本稿では,プログラミング言語の形式で変換器エンコーダの計算モデルを提案する。
RASPは、トランスフォーマーによって確実に学習できるタスクの解決策をプログラムするのにどのように使えるかを示す。
ヒストグラム、ソート、ダイク言語のためのRASPプログラムを提供する。
論文 参考訳(メタデータ) (2021-06-13T13:04:46Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Weak-Attention Suppression For Transformer Based Speech Recognition [33.30436927415777]
Weak-Attention Suppression (WAS) を提案する。
We demonstrate that WAS leads to consistent Word Error Rate (WER) improve over strong transformer baselines。
論文 参考訳(メタデータ) (2020-05-18T23:49:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。