論文の概要: Resource-Efficient Separation Transformer
- arxiv url: http://arxiv.org/abs/2206.09507v2
- Date: Mon, 15 Jan 2024 17:35:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 03:58:08.106130
- Title: Resource-Efficient Separation Transformer
- Title(参考訳): 資源効率の良い分離変圧器
- Authors: Luca Della Libera, Cem Subakan, Mirco Ravanelli, Samuele Cornell,
Fr\'ed\'eric Lepoutre, Fran\c{c}ois Grondin
- Abstract要約: 本稿では,トランスフォーマーを用いた音声分離手法について,計算コストの削減による検討を行う。
私たちの主な貢献は、自己注意に基づくアーキテクチャであるResource-Efficient separation Transformer (RE-SepFormer)の開発です。
RE-SepFormerは、一般的なWSJ0-2MixとWHAM!データセットにおいて、因果設定と非因果設定の両方で競合するパフォーマンスに達する。
- 参考スコア(独自算出の注目度): 14.666016177212837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have recently achieved state-of-the-art performance in speech
separation. These models, however, are computationally demanding and require a
lot of learnable parameters. This paper explores Transformer-based speech
separation with a reduced computational cost. Our main contribution is the
development of the Resource-Efficient Separation Transformer (RE-SepFormer), a
self-attention-based architecture that reduces the computational burden in two
ways. First, it uses non-overlapping blocks in the latent space. Second, it
operates on compact latent summaries calculated from each chunk. The
RE-SepFormer reaches a competitive performance on the popular WSJ0-2Mix and
WHAM! datasets in both causal and non-causal settings. Remarkably, it scales
significantly better than the previous Transformer-based architectures in terms
of memory and inference time, making it more suitable for processing long
mixtures.
- Abstract(参考訳): トランスフォーマーは最近、音声分離において最先端のパフォーマンスを達成している。
しかし、これらのモデルは計算的に要求され、多くの学習可能なパラメータを必要とする。
本稿では,トランスフォーマーを用いた音声分離手法を提案する。
私たちの主な貢献は、リソース効率の良い分離変換器(RE-SepFormer)の開発です。
まず、潜在空間で重複しないブロックを使用する。
第二に、各チャンクから計算されたコンパクトな潜在サマリーで動作する。
re-sepformerは、因果設定と非因果設定の両方で、人気のあるwsj0-2mixとwham!データセットで競合性能に達する。
注目すべきは、メモリと推論時間の観点から、従来のTransformerベースのアーキテクチャよりも大幅にスケールし、長い混合処理に適していることだ。
関連論文リスト
- MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - nnFormer: Interleaved Transformer for Volumetric Segmentation [50.10441845967601]
本稿では,自己意図と畳み込みを実証的に組み合わせた,インターリーブアーキテクチャを備えた強力なセグメンテーションモデルであるnnFormerを紹介する。
nnFormerは、SynapseとACDCの2つの一般的なデータセットで、以前のTransformerベースのメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-09-07T17:08:24Z) - TCCT: Tightly-Coupled Convolutional Transformer on Time Series
Forecasting [6.393659160890665]
本稿では, 密結合型畳み込み変換器(TCCT)と3つのTCCTアーキテクチャを提案する。
実世界のデータセットに対する我々の実験は、我々のTCCTアーキテクチャが既存の最先端トランスフォーマーモデルの性能を大幅に改善できることを示している。
論文 参考訳(メタデータ) (2021-08-29T08:49:31Z) - Decoupled Transformer for Scalable Inference in Open-domain Question
Answering [0.0]
BERTのような大規模変圧器モデルは、オープンドメイン質問応答(QA)のための機械読解(MRC)の最先端結果が得られる。
SQUAD 2.0データセットの実験では、切り離された変換器は、標準変換器に比べて1.2ポイント悪いF1スコアで、オープンドメインMCCの計算コストとレイテンシを30-40%削減する。
論文 参考訳(メタデータ) (2021-08-05T17:53:40Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Attention is All You Need in Speech Separation [12.57578429586883]
音声分離のための新しいRNNフリートランスフォーマーベースニューラルネットワークを提案する。
提案モデルは標準的なWSJ0-2/3mixデータセット上での最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2020-10-25T16:28:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。