Fugu-MT 論文翻訳(概要): Folding Attention: Memory and Power Optimization for On-Device Transformer-based Streaming Speech Recognition

論文の概要: Folding Attention: Memory and Power Optimization for On-Device Transformer-based Streaming Speech Recognition

arxiv url: http://arxiv.org/abs/2309.07988v3
Date: Fri, 19 Jan 2024 00:28:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-22 19:08:13.503768
Title: Folding Attention: Memory and Power Optimization for On-Device Transformer-based Streaming Speech Recognition
Title（参考訳）: フォールディング注意:オンデバイストランスを用いたストリーミング音声認識におけるメモリと電力最適化
Authors: Yang Li, Liangzhen Lai, Yuan Shangguan, Forrest N. Iandola, Zhaoheng Ni, Ernie Chang, Yangyang Shi, Vikas Chandra
Abstract要約: 音声認識モデルのストリーミングは通常、毎回限られた数のトークンを処理する。ボトルネックは、マルチヘッドアテンションとフィードフォワードネットワークの線形プロジェクション層にある。本稿では,これらの線形層を対象とし,モデルサイズを大幅に削減し,メモリと電力効率を向上する手法である折りたたみ注意法を提案する。
参考スコア（独自算出の注目度）: 19.772585241974138
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformer-based models excel in speech recognition. Existing efforts to optimize Transformer inference, typically for long-context applications, center on simplifying attention score calculations. However, streaming speech recognition models usually process a limited number of tokens each time, making attention score calculation less of a bottleneck. Instead, the bottleneck lies in the linear projection layers of multi-head attention and feedforward networks, constituting a substantial portion of the model size and contributing significantly to computation, memory, and power usage. To address this bottleneck, we propose folding attention, a technique targeting these linear layers, significantly reducing model size and improving memory and power efficiency. Experiments on on-device Transformer-based streaming speech recognition models show that folding attention reduces model size (and corresponding memory consumption) by up to 24% and power consumption by up to 23%, all without compromising model accuracy or computation overhead.
Abstract（参考訳）: トランスフォーマーベースのモデルは音声認識に優れている。トランスフォーマー推論を最適化する既存の取り組みは、一般的には、注意スコアの計算を単純化することに集中している。しかし、ストリーミング音声認識モデルは、通常、毎回限られた数のトークンを処理し、注目スコアの計算をボトルネックより少なくする。その代わりに、ボトルネックはマルチヘッドの注意とフィードフォワードネットワークの線形投影層にあり、モデルサイズの大部分を占め、計算、メモリ、電力使用量に大きく貢献する。このボトルネックに対処するため,これらの線形層を対象とし,モデルサイズを大幅に削減し,メモリと電力効率を向上する手法である折りたたみ注意を提案する。オンデバイストランスフォーマーに基づくストリーミング音声認識モデルの実験では、折り畳み注意がモデルサイズ(および対応するメモリ消費)を最大24%削減し、消費電力を最大23%削減し、いずれもモデルの精度や計算オーバーヘッドを損なうことなく実現している。

関連論文リスト

End-to-End Transformer Acceleration Through Processing-in-Memory Architectures [6.3093372874778835]
トランスフォーマーは自然言語処理や大規模言語モデルの中心となっているが、大規模に展開することは3つの大きな課題に直面している。この研究は、オフチップデータ転送を最小限に抑えるために注意を再構築し、KVキャッシュを動的に圧縮してプーンし、複雑さとハードウェアフットプリントを減らすための連想メモリ操作として注意を解釈する処理インメモリソリューションを導入する。
論文参考訳（メタデータ） (2025-11-21T19:22:47Z)
Continual Low-Rank Scaled Dot-product Attention [67.11704350478475]
我々は,連続的推論に適したNystr"om近似に基づくスケールド・プロダクツ・アテンションの新しい定式化を導入する。オンライン音声分類およびオンライン行動検出タスクの実験において、提案した連続的スケールド・プロダクト・アテンションは、最大3桁の操作数を削減できる。
論文参考訳（メタデータ） (2024-12-04T11:05:01Z)
Analog In-Memory Computing Attention Mechanism for Fast and Energy-Efficient Large Language Models [0.755189019348525]
自己注意によって駆動されるトランスフォーマーネットワークは、大規模言語モデルの中心である。生成トランスフォーマーでは、自己アテンションはキャッシュメモリを使用してトークンプロジェクションを格納し、各ステップで再計算を避ける。本稿では、ゲインセルと呼ばれる新しいチャージベースのメモリをベースとした、独自の自己アテンションインメモリコンピューティングアーキテクチャを提案する。
論文参考訳（メタデータ） (2024-09-28T11:00:11Z)
Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文参考訳（メタデータ） (2024-05-17T00:52:39Z)
Simple linear attention language models balance the recall-throughput tradeoff [60.06020449520365]
線形およびすべり窓の注意を結合したシンプルなアーキテクチャであるBASEDを提案する。我々は、最大1.3bパラメータの言語モデルをトレーニングし、BASEDがパープレキシティにおいて最強のサブクワッドラティックモデルと一致し、実世界のリコール集約タスクにおいて6.22の精度ポイントでそれらのモデルを上回っていることを示す。
論文参考訳（メタデータ） (2024-02-28T19:28:27Z)
Point Transformer V3: Simpler, Faster, Stronger [88.80496333515325]
本稿では,ポイントクラウド処理における精度と効率のトレードオフを克服することに焦点を当てる。本稿では,特定のメカニズムの精度よりもシンプルさと効率を優先するポイントトランスフォーマーV3(PTv3)を提案する。 PTv3は、屋内と屋外の両方のシナリオにまたがる20以上の下流タスクで最先端の結果を得る。
論文参考訳（メタデータ） (2023-12-15T18:59:59Z)
FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文参考訳（メタデータ） (2023-08-01T10:37:12Z)
When to Use Efficient Self Attention? Profiling Text, Speech and Image Transformer Variants [39.00433193973159]
本研究は,テキスト,音声,視覚にまたがる自己注意型トランスフォーマーの効率性に関する,最初の統一的研究である。効率の良いトランスフォーマー変種がバニラモデルよりも効率的になる入力長閾値(タイピング点)を同定する。そこで本研究では,L-HuBERTを導入した。L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L -HuBERT,L-H
論文参考訳（メタデータ） (2023-06-14T17:59:02Z)
CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文参考訳（メタデータ） (2023-05-17T03:19:18Z)
Variable Bitrate Neural Fields [75.24672452527795]
本稿では,特徴格子を圧縮し,メモリ消費を最大100倍に削減する辞書手法を提案する。辞書の最適化をベクトル量子化オートデコーダ問題として定式化し、直接監督できない空間において、エンドツーエンドの離散神経表現を学習する。
論文参考訳（メタデータ） (2022-06-15T17:58:34Z)
Space-time Mixing Attention for Video Transformer [55.50839896863275]
本稿では,ビデオシーケンス内のフレーム数と線形にスケールする複雑性をビデオトランスフォーマーモデルとして提案する。我々は,最も人気のあるビデオ認識データセットに対して,認識精度が非常に高いことを実証した。
論文参考訳（メタデータ） (2021-06-10T17:59:14Z)
Efficient End-to-End Speech Recognition Using Performers in Conformers [74.71219757585841]
モデルサイズに加えて,モデルアーキテクチャの複雑さを低減することを提案する。提案モデルにより,1000万のパラメータと線形複雑度を持つLibriSpeechコーパス上での競合性能が得られた。
論文参考訳（メタデータ） (2020-11-09T05:22:57Z)
Streaming Attention-Based Models with Augmented Memory for End-to-End Speech Recognition [26.530909772863417]
コンボリューションを付加したアテンションベースのモジュールを用いた,エンドツーエンドのニューラルトランスデューサアーキテクチャ上に,コンパクトでストリーミングな音声認識システムを構築した。提案システムは,ストリーミング機能を備えたエンドツーエンドモデルと,拡張メモリを用いたストリーミングアテンションベースモデルからのフットプリントを大幅に削減する。 LibriSpeechデータセットでは,テストクリーンで2.7%,他で5.8%の単語誤り率を実現している。
論文参考訳（メタデータ） (2020-11-03T00:43:58Z)
Self-attention encoding and pooling for speaker recognition [16.96341561111918]
本研究では,非固定長音声音声の識別話者埋め込みを実現するために,タンデム自己認識・プーリング(SAEP)機構を提案する。 SAEPは、テキストに依存しない話者検証に使用される話者埋め込みに、短時間の話者スペクトル特徴を符号化する。このアプローチをVoxCeleb1と2のデータセットで評価した。
論文参考訳（メタデータ） (2020-08-03T09:31:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。