論文の概要: Papez: Resource-Efficient Speech Separation with Auditory Working Memory
- arxiv url: http://arxiv.org/abs/2407.00888v1
- Date: Mon, 1 Jul 2024 01:23:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 01:17:19.380436
- Title: Papez: Resource-Efficient Speech Separation with Auditory Working Memory
- Title(参考訳): Papez: 聴覚作業記憶を用いた資源効率の良い音声分離
- Authors: Hyunseok Oh, Juheon Yi, Youngki Lee,
- Abstract要約: Papezは軽量で計算効率のよい単一チャネル音声分離モデルである。
我々は、チャンク変換器を小型の聴覚ワーキングメモリに置き換える。
さらなる処理を必要としない入力トークンを適応的にプルークする。
- 参考スコア(独自算出の注目度): 11.07232476055629
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based models recently reached state-of-the-art single-channel speech separation accuracy; However, their extreme computational load makes it difficult to deploy them in resource-constrained mobile or IoT devices. We thus present Papez, a lightweight and computation-efficient single-channel speech separation model. Papez is based on three key techniques. We first replace the inter-chunk Transformer with small-sized auditory working memory. Second, we adaptively prune the input tokens that do not need further processing. Finally, we reduce the number of parameters through the recurrent transformer. Our extensive evaluation shows that Papez achieves the best resource and accuracy tradeoffs with a large margin. We publicly share our source code at \texttt{https://github.com/snuhcs/Papez}
- Abstract(参考訳): トランスフォーマーベースのモデルは、最近最先端の単一チャネル音声分離精度に達したが、その極端な計算負荷により、リソースに制約のあるモバイルデバイスやIoTデバイスへのデプロイが困難になる。
そこで我々は,軽量かつ計算効率の良い単一チャネル音声分離モデルであるPapezを提案する。
Papezは3つの重要なテクニックに基づいている。
我々はまず、チャンク変換器を小型の聴覚ワーキングメモリに置き換える。
第2に、さらなる処理を必要としない入力トークンを適応的にプルークする。
最後に、リカレントトランスによるパラメータ数を削減する。
我々の広範な評価は、Papezが最大のリソースと精度のトレードオフを大きなマージンで達成していることを示している。
ソースコードは texttt{https://github.com/snuhcs/Papez} で公開しています。
関連論文リスト
- Memory-Efficient Fine-Tuning of Transformers via Token Selection [8.040237969671942]
TokenTuneは、メモリ使用量を減らす方法であり、特に中間活性化を記憶するためのメモリである。
我々は、最大10億のパラメータを持つ事前学習されたトランスフォーマーモデルに対するアプローチを評価する。
論文 参考訳(メタデータ) (2025-01-31T00:43:50Z) - FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency
Trade-off in Language Model Inference [57.119047493787185]
本稿では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56times$wall clock time speedupを無視できる精度低下で実現する方法を示す。
実際、本手法では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56Times$wall clock time speedupを無視できる精度で実現している。
論文 参考訳(メタデータ) (2024-01-08T17:29:16Z) - Hourglass Tokenizer for Efficient Transformer-Based 3D Human Pose Estimation [73.31524865643709]
本稿では,Hourglass Tokenizer (HoT) と呼ばれるプラグアンドプレイのプルーニング・アンド・リカバリフレームワークを提案する。
私たちのHoDTは、冗長なフレームのポーズトークンのプルーニングから始まり、フル長のトークンを復元することで終了します。
提案手法は,従来のVPTモデルと比較して高い効率性と推定精度を両立させることができる。
論文 参考訳(メタデータ) (2023-11-20T18:59:51Z) - Structured Pruning of Self-Supervised Pre-trained Models for Speech
Recognition and Understanding [43.68557263195205]
自己教師付き音声表現学習(SSL)は、様々な下流タスクで有効であることが示されているが、SSLモデルは通常、大きくて遅い。
このような異種ネットワークを扱うための3つのタスク固有の構造化プルーニング手法を提案する。
LibriSpeech と SLURP の実験により,提案手法は従来の wav2vecbase よりも10% から30% の精度で精度が高く,劣化を伴わずに 40% から 50% の削減が可能であった。
論文 参考訳(メタデータ) (2023-02-27T20:39:54Z) - Resource-Efficient Separation Transformer [14.666016177212837]
本稿では,トランスフォーマーを用いた音声分離手法について,計算コストの削減による検討を行う。
私たちの主な貢献は、自己注意に基づくアーキテクチャであるResource-Efficient separation Transformer (RE-SepFormer)の開発です。
RE-SepFormerは、一般的なWSJ0-2MixとWHAM!データセットにおいて、因果設定と非因果設定の両方で競合するパフォーマンスに達する。
論文 参考訳(メタデータ) (2022-06-19T23:37:24Z) - A Fast Post-Training Pruning Framework for Transformers [74.59556951906468]
プルーニングは、大きなTransformerモデルの巨大な推論コストを削減する効果的な方法である。
モデルプルーニングの以前の作業では、モデルの再トレーニングが必要だった。
本稿では,再学習を必要としないトランスフォーマーのための高速な訓練後プルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T07:41:11Z) - Improving language models by retrieving from trillions of tokens [50.42630445476544]
大規模コーパスから取得した文書チャンクを条件付けすることで,自動回帰言語モデルを強化する。
2兆ドルのトークンデータベースで、Retrieval-Enhanced Transformer (RETRO)は、PileのGPT-3とJurassic-1に匹敵するパフォーマンスを得る。
論文 参考訳(メタデータ) (2021-12-08T17:32:34Z) - Decoupled Transformer for Scalable Inference in Open-domain Question
Answering [0.0]
BERTのような大規模変圧器モデルは、オープンドメイン質問応答(QA)のための機械読解(MRC)の最先端結果が得られる。
SQUAD 2.0データセットの実験では、切り離された変換器は、標準変換器に比べて1.2ポイント悪いF1スコアで、オープンドメインMCCの計算コストとレイテンシを30-40%削減する。
論文 参考訳(メタデータ) (2021-08-05T17:53:40Z) - Transformer Based Deliberation for Two-Pass Speech Recognition [46.86118010771703]
音声認識システムは、単語を素早く生成し、正確な結果を生成する必要がある。
2つのパスモデルは、単語を素早く出力する1次パスデコーダと、よりコンテキストを必要とするがより正確である2次パスデコーダを使用することで、これらの要求に優れる。
以前は、議論ネットワークが効果的な第2パスモデルになり得ることが証明されていた。
論文 参考訳(メタデータ) (2021-01-27T18:05:22Z) - Conformer: Convolution-augmented Transformer for Speech Recognition [60.119604551507805]
最近、トランスフォーマーと畳み込みニューラルネットワーク(CNN)に基づくモデルが、自動音声認識(ASR)の有望な結果を示している。
音声認識のための畳み込み拡張変換器,Conformerを提案する。
広く使われているLibriSpeechベンチマークでは、言語モデルを用いずにWERが2.1%/4.3%、テスト/テストの外部言語モデルで1.9%/3.9%を達成した。
論文 参考訳(メタデータ) (2020-05-16T20:56:25Z) - The Cascade Transformer: an Application for Efficient Answer Sentence
Selection [116.09532365093659]
本稿では,変圧器をベースとしたモデルのカスケード化手法であるカスケード変換器について紹介する。
現状の変圧器モデルと比較すると,提案手法は精度にほとんど影響を与えずに計算量を37%削減する。
論文 参考訳(メタデータ) (2020-05-05T23:32:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。