論文の概要: Streaming Transformer-based Acoustic Models Using Self-attention with
Augmented Memory
- arxiv url: http://arxiv.org/abs/2005.08042v1
- Date: Sat, 16 May 2020 16:54:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 13:31:57.868491
- Title: Streaming Transformer-based Acoustic Models Using Self-attention with
Augmented Memory
- Title(参考訳): 拡張記憶を用いた自己アテンションを用いた変圧器ベース音響モデル
- Authors: Chunyang Wu, Yongqiang Wang, Yangyang Shi, Ching-Feng Yeh, Frank Zhang
- Abstract要約: 変換器をベースとした音響モデリングは,ハイブリッド・シーケンス・ツー・シーケンス音声認識の双方において大きな成功をおさめている。
本稿では,入力シーケンスの短い部分とメモリバンクに参画する,新たな自己記憶機能を提案する。
- 参考スコア(独自算出の注目度): 23.022723184325017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based acoustic modeling has achieved great suc-cess for both
hybrid and sequence-to-sequence speech recogni-tion. However, it requires
access to the full sequence, and thecomputational cost grows quadratically with
respect to the in-put sequence length. These factors limit its adoption for
stream-ing applications. In this work, we proposed a novel augmentedmemory
self-attention, which attends on a short segment of theinput sequence and a
bank of memories. The memory bankstores the embedding information for all the
processed seg-ments. On the librispeech benchmark, our proposed
methodoutperforms all the existing streamable transformer methods bya large
margin and achieved over 15% relative error reduction,compared with the widely
used LC-BLSTM baseline. Our find-ings are also confirmed on some large internal
datasets.
- Abstract(参考訳): 変換器をベースとした音響モデリングは,ハイブリッド・シーケンス・ツー・シーケンス音声認識の双方において大きな成功をおさめている。
しかし、完全なシーケンスにアクセスする必要があり、計算コストはインプットシーケンスの長さに対して2次的に増加する。
これらの要因は、ストリームアプリケーションへの採用を制限する。
そこで本研究では,入力シーケンスと記憶バンクの短いセグメントに随伴する拡張メモリセルフアテンションを提案する。
メモリバンクは、処理されたすべてのセグメントの埋め込み情報を格納する。
librispeechベンチマークでは,提案手法は既存のストリーム型トランスフォーマーメソッドを大きなマージンで処理し,一般的なlc-blstmベースラインと比較して15%以上の相対誤差低減を達成している。
我々の発見は、いくつかの大きな内部データセットでも確認されます。
関連論文リスト
- LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Mini-Sequence Transformer: Optimizing Intermediate Memory for Long Sequences Training [78.93900796545523]
ミニシーケンス変換器(Mini-Sequence Transformer, MsT)は、非常に長いシーケンスを持つ高速かつ高精度なLLMトレーニング手法である。
MsTは入力シーケンスを分割し、中間メモリ使用量を減らすためにミニシーケンスを反復的に処理する。
huggingfaceライブラリと統合され、MsTはQwen、Mistral、Gemma-2の最大コンテキスト長を12-24倍に拡張した。
論文 参考訳(メタデータ) (2024-07-22T01:52:30Z) - UIO-LLMs: Unbiased Incremental Optimization for Long-Context LLMs [111.12010207132204]
UIO-LLMsは、長いコンテキスト設定下でのメモリ拡張トランスフォーマーの漸進的な最適化手法である。
本稿では,TBPTTアルゴリズムを用いて学習過程を改良する。
UIO-LLMは、Llama2-7b-chatのコンテキストウィンドウを4Kから100Kトークンに、2%の追加パラメータで拡張するなど、長いコンテキストを扱うことに成功した。
論文 参考訳(メタデータ) (2024-06-26T08:44:36Z) - Progressive Token Length Scaling in Transformer Encoders for Efficient Universal Segmentation [67.85309547416155]
ユニバーサルセグメンテーションのための強力なアーキテクチャは、マルチスケールの画像特徴を符号化し、オブジェクトクエリをマスク予測にデコードするトランスフォーマーに依存している。
Mask2Formerはその計算の50%をトランスフォーマーエンコーダでのみ使用する。
これは、エンコーダ層ごとにすべてのバックボーン機能スケールのトークンレベルの完全な表現が保持されているためである。
本稿では,パフォーマンスの犠牲を最小限に抑えながら,計算量を大幅に削減するPro-SCALEを提案する。
論文 参考訳(メタデータ) (2024-04-23T01:34:20Z) - Ring Attention with Blockwise Transformers for Near-Infinite Context [88.61687950039662]
本稿では,複数のデバイスにまたがって長いシーケンスを分散するために,ブロックワイドな自己注意とフィードフォワードの計算を利用する,ブロックワイドトランスフォーマーを用いたリングアテンション(リングアテンション)を提案する。
提案手法では,先行メモリ効率の変換器で達成可能なものよりも,デバイス数倍のシーケンスのトレーニングと推論が可能となる。
論文 参考訳(メタデータ) (2023-10-03T08:44:50Z) - Chunk, Align, Select: A Simple Long-sequence Processing Method for Transformers [24.109312575970456]
そこで本研究では,オフザシェルフ事前学習型トランスフォーマーにおいて,より長いシーケンス処理を実現するための簡単なフレームワークを提案する。
提案手法では,各時系列入力をチャンクのバッチに分割し,エンコーディングステップ中にインターチャンク情報をアライメントする。
我々は,変圧器のデコーダを環境とみなす効果的な隠れ選択ポリシーを学習する。
論文 参考訳(メタデータ) (2023-08-25T05:52:05Z) - Segmented Recurrent Transformer: An Efficient Sequence-to-Sequence Model [10.473819332984005]
分割された(局所的な)注意と再帰的な注意を結合した分節再帰変圧器(SRformer)を提案する。
提案モデルでは,分割変圧器よりも高いROUGE1スコアを6-22%で達成し,他の再帰変圧器よりも優れている。
論文 参考訳(メタデータ) (2023-05-24T03:47:22Z) - Self-Gated Memory Recurrent Network for Efficient Scalable HDR
Deghosting [59.04604001936661]
本稿では,任意の長さの動的シーケンスを浮き彫りにする新しいネットワーク型HDRデゴースト法を提案する。
本稿では,SGM(Self-Gated Memory)セルという新たなリカレントセルアーキテクチャを導入する。
提案手法は,既存の3つの公開データセットを定量的に比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-12-24T12:36:33Z) - Conv-Transformer Transducer: Low Latency, Low Frame Rate, Streamable
End-to-End Speech Recognition [8.046120977786702]
Transformerは自動音声認識(ASR)における最先端のエンドツーエンドモデルと競合する性能を達成した
エンコーダ-デコーダアーキテクチャを備えたオリジナルのTransformerは、オフラインのASRにのみ適合する。
Conv-Transformer Transducerという名前のこのアーキテクチャは、外部言語モデルなしでLibriSpeechデータセット(3.6% WER on test-clean)の競合性能を実現する。
論文 参考訳(メタデータ) (2020-08-13T08:20:02Z) - Conformer-Kernel with Query Term Independence for Document Retrieval [32.36908635150144]
Transformer- Kernel (TK) モデルは、TREC Deep Learningベンチマークで強力な再ランク性能を示している。
我々は、クエリ項独立仮定を組み込むことで、TKアーキテクチャを完全な検索設定に拡張する。
コンフォーマーのGPUメモリ要件は入力シーケンス長と線形にスケールすることを示し、長いドキュメントのランク付けにおいてより有効な選択肢であることを示す。
論文 参考訳(メタデータ) (2020-07-20T19:47:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。