論文の概要: Efficient Transformer-based Speech Enhancement Using Long Frames and
STFT Magnitudes
- arxiv url: http://arxiv.org/abs/2206.11703v1
- Date: Thu, 23 Jun 2022 13:50:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-24 14:41:18.947783
- Title: Efficient Transformer-based Speech Enhancement Using Long Frames and
STFT Magnitudes
- Title(参考訳): 長フレームとSTFTマグニチュードを用いた効率的な変圧器ベース音声強調
- Authors: Danilo de Oliveira, Tal Peer, Timo Gerkmann
- Abstract要約: SepFormerアーキテクチャは、音声分離において非常に良い結果を示す。
SepFormerはトランスフォーマーベースであるため、その計算複雑性は長いシーケンスで劇的に増加する。
我々は、SepFormerを音声強調タスクに使用し、学習エンコーダの特徴を最大短時間フーリエ変換(STFT)表現に置き換えることで、知覚強調性能を損なうことなく長フレームを使用できることを示す。
- 参考スコア(独自算出の注目度): 15.16865739526702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The SepFormer architecture shows very good results in speech separation. Like
other learned-encoder models, it uses short frames, as they have been shown to
obtain better performance in these cases. This results in a large number of
frames at the input, which is problematic; since the SepFormer is
transformer-based, its computational complexity drastically increases with
longer sequences. In this paper, we employ the SepFormer in a speech
enhancement task and show that by replacing the learned-encoder features with a
magnitude short-time Fourier transform (STFT) representation, we can use long
frames without compromising perceptual enhancement performance. We obtained
equivalent quality and intelligibility evaluation scores while reducing the
number of operations by a factor of approximately 8 for a 10-second utterance.
- Abstract(参考訳): SepFormerアーキテクチャは、音声分離において非常に良い結果を示す。
他の学習エンコーダモデルと同様に、短フレームを使用し、これらのケースでパフォーマンスが向上することが示されている。
sepformerはトランスフォーマーベースであるため、計算の複雑さは長いシーケンスで劇的に増加する。
本稿では,音声強調タスクにおいてsepformerを用い,学習エンコーダの特徴を最大短時間フーリエ変換(stft)表現に置き換えることで,知覚強調性能を損なうことなく長フレームを使用できることを示す。
10秒の発話に対して,操作回数を約8倍に減らしながら,等価品質とインテリジェンス評価スコアを得た。
関連論文リスト
- Extreme Encoder Output Frame Rate Reduction: Improving Computational
Latencies of Large End-to-End Models [59.57732929473519]
エンコーダに複数のフレーム削減層を適用し,少数の出力フレームにエンコーダ出力を圧縮する。
入力音声の2.56秒毎に1つのエンコーダ出力フレームを生成できることを示す。
論文 参考訳(メタデータ) (2024-02-27T03:40:44Z) - Functional Interpolation for Relative Positions Improves Long Context
Transformers [86.12843093589]
本稿では,より長いコンテキストに変換器の一般化を改善するために,プログレッシブなFIREを用いた関数的相対的位置符号化を提案する。
理論的には、これはT5のRPE、Alibi、Kerpleなどの一般的な相対的な位置エンコーディングのいくつかを表現できる。
FIREモデルは、ゼロショット言語モデリングと長文ベンチマークの両方において、より長い文脈での一般化がより優れていることを示す。
論文 参考訳(メタデータ) (2023-10-06T17:59:11Z) - SViTT: Temporal Learning of Sparse Video-Text Transformers [65.93031164906812]
SViTTは,多フレーム推論が可能な疎ビデオテキストアーキテクチャであり,注目度の高い単純変換器よりもはるかに低コストである。
SViTTは、自己注意におけるトークン間のクエリキー通信を制限するエッジ空間と、非形式的視覚トークンを破棄する空間の2つの形式を採用している。
論文 参考訳(メタデータ) (2023-04-18T08:17:58Z) - Frame Flexible Network [52.623337134518835]
既存のビデオ認識アルゴリズムは、常に異なるフレーム番号の入力に対して異なるトレーニングパイプラインを実行する。
トレーニングに使われていない他のフレームを使用してモデルを評価した場合、パフォーマンスが大幅に低下するのを観察する。
本稿では,フレームフレキシブルネットワーク(FFN)と呼ばれる汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-26T20:51:35Z) - ReBotNet: Fast Real-time Video Enhancement [59.08038313427057]
ほとんどの復元ネットワークは遅く、高い計算ボトルネックがあり、リアルタイムビデオ拡張には使用できない。
本研究では,ライブビデオ通話やビデオストリームなどの実用的なユースケースをリアルタイムに拡張するための,効率的かつ高速なフレームワークを設計する。
提案手法を評価するために,実世界のビデオ通話とストリーミングのシナリオを示す2つの新しいデータセットをエミュレートし,ReBotNetがより少ない計算,メモリ要求の低減,より高速な推論時間で既存手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-03-23T17:58:05Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - Efficient Trainable Front-Ends for Neural Speech Enhancement [22.313111311130665]
本稿では,高速フーリエ変換を演算するバタフライ機構に基づく,効率的で訓練可能なフロントエンドを提案する。
我々はその精度と効率の利点を低計算型ニューラル音声強調モデルに示す。
論文 参考訳(メタデータ) (2020-02-20T01:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。