論文の概要: TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation
- arxiv url: http://arxiv.org/abs/2410.01469v1
- Date: Wed, 2 Oct 2024 12:21:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 17:34:40.188374
- Title: TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation
- Title(参考訳): TIGER:効率的な音声分離のための時間周波数インターリーブ利得抽出と再構成
- Authors: Mohan Xu, Kai Li, Guo Chen, Xiaolin Hu,
- Abstract要約: パラメータと計算コストを大幅に削減した音声分離モデルを提案する。
TIGERは事前の知識を活用して周波数帯域を分割し、周波数情報を圧縮する。
我々は、TIGERが、最先端(SOTA)モデルTF-GridNetを上回る性能を達成することを示す。
- 参考スコア(独自算出の注目度): 19.126525226518975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, much speech separation research has focused primarily on improving model performance. However, for low-latency speech processing systems, high efficiency is equally important. Therefore, we propose a speech separation model with significantly reduced parameters and computational costs: Time-frequency Interleaved Gain Extraction and Reconstruction network (TIGER). TIGER leverages prior knowledge to divide frequency bands and compresses frequency information. We employ a multi-scale selective attention module to extract contextual features, while introducing a full-frequency-frame attention module to capture both temporal and frequency contextual information. Additionally, to more realistically evaluate the performance of speech separation models in complex acoustic environments, we introduce a dataset called EchoSet. This dataset includes noise and more realistic reverberation (e.g., considering object occlusions and material properties), with speech from two speakers overlapping at random proportions. Experimental results showed that models trained on EchoSet had better generalization ability than those trained on other datasets to the data collected in the physical world, which validated the practical value of the EchoSet. On EchoSet and real-world data, TIGER significantly reduces the number of parameters by 94.3% and the MACs by 95.3% while achieving performance surpassing state-of-the-art (SOTA) model TF-GridNet. This is the first speech separation model with fewer than 1 million parameters that achieves performance comparable to the SOTA model.
- Abstract(参考訳): 近年,多くの音声分離研究が,主にモデル性能の向上に重点を置いている。
しかし,低遅延音声処理システムにおいては,高効率化が重要である。
そこで本研究では,時間周波数インターリーブ付きゲイン抽出・再構成ネットワーク(TIGER)を用いて,パラメータと計算コストを大幅に削減した音声分離モデルを提案する。
TIGERは事前の知識を活用して周波数帯域を分割し、周波数情報を圧縮する。
我々は、時間的・周波数的両方のコンテキスト情報をキャプチャするフル周波数フレームアテンションモジュールを導入しながら、コンテキスト的特徴を抽出するために、マルチスケールの選択的アテンションモジュールを用いている。
さらに,複雑な音響環境下での音声分離モデルの性能をより現実的に評価するために,EchoSetというデータセットを導入する。
このデータセットには、雑音とより現実的な残響(例えば、物体の閉塞や材料特性を考慮して)が含まれており、2人の話者の発話はランダムな比率で重なる。
実験の結果、EchoSetでトレーニングされたモデルは、物理的な世界で収集されたデータに対して、他のデータセットでトレーニングされたモデルよりも、より優れた一般化能力を示し、EchoSetの実用的価値が検証された。
EchoSetと現実世界のデータでは、TIGERはパラメータ数を94.3%、MACを95.3%削減し、最先端(SOTA)モデルTF-GridNetを上回るパフォーマンスを実現している。
これは、SOTAモデルに匹敵する性能を達成する100万未満のパラメータを持つ最初の音声分離モデルである。
関連論文リスト
- Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - RTFS-Net: Recurrent Time-Frequency Modelling for Efficient Audio-Visual Speech Separation [18.93255531121519]
本稿では,時間周波数領域の音声-視覚音声分離手法を提案する。
RTFS-Netはそのアルゴリズムをショートタイムフーリエ変換によって得られる複雑な時間周波数ビンに適用する。
これは、時間周波数領域の音声・視覚的音声分離法として初めて、現代の時間領域の全てを上回ります。
論文 参考訳(メタデータ) (2023-09-29T12:38:00Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Exploring Self-Attention Mechanisms for Speech Separation [11.210834842425955]
本稿では,音声分離のための奥行き変換器について検討する。
SepFormerに関するこれまでの知見は、より難しいノイズとノイズの残響データセットの結果を提供することで拡張します。
最後に,音声分離において,Linformers,Lonformers,ReFormersなどの効率的な自己認識機構の利用を初めて検討する。
論文 参考訳(メタデータ) (2022-02-06T23:13:27Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Raw Waveform Encoder with Multi-Scale Globally Attentive Locally
Recurrent Networks for End-to-End Speech Recognition [45.858039215825656]
本稿では,グローバルな注意的局所再帰(GALR)ネットワークを採用し,生波形を直接入力とする新しいエンコーダを提案する。
ベンチマークデータセットAISHELL-2と,5,000時間21,000時間の大規模マンダリン音声コーパスを用いて実験を行った。
論文 参考訳(メタデータ) (2021-06-08T12:12:33Z) - MixSpeech: Data Augmentation for Low-resource Automatic Speech
Recognition [54.84624870942339]
MixSpeechは、自動音声認識(ASR)のためのミックスアップに基づくシンプルで効果的なデータ拡張方法です。
mixspeechをlas(listen, attend, spell)とtransformerを含む2つのポピュラーなエンドツーエンド音声認識モデルに適用した。
実験の結果,MixSpeechはデータ拡張のないベースラインモデルよりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2021-02-25T03:40:43Z) - Rethinking Evaluation in ASR: Are Our Models Robust Enough? [30.114009549372923]
一般に、残響と付加音の増補により、ドメイン間の一般化性能が向上することを示す。
ベンチマークを十分に使うと、平均単語誤り率(WER)のパフォーマンスが実世界のノイズの多いデータのパフォーマンスに良いプロキシを提供することを示した。
論文 参考訳(メタデータ) (2020-10-22T14:01:32Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。