論文の概要: Phase-Aware Deep Speech Enhancement: It's All About The Frame Length
- arxiv url: http://arxiv.org/abs/2203.16222v1
- Date: Wed, 30 Mar 2022 11:51:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 16:56:53.313285
- Title: Phase-Aware Deep Speech Enhancement: It's All About The Frame Length
- Title(参考訳): 位相認識による深部音声強調 - フレーム長について
- Authors: Tal Peer, Timo Gerkmann
- Abstract要約: 現代のディープニューラルネットワーク(DNN)ベースのアプローチは、非常に短いフレーム(2ms)において、大きさと位相の両方を暗黙的に変更する。
クリーン音声の再構成に関するこれまでの研究から,位相認識型DNNが活用できることが示唆された。
将来の位相対応深層音声強調法には,約4msのフレーム長を推奨する。
- 参考スコア(独自算出の注目度): 17.919759296265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While phase-aware speech processing has been receiving increasing attention
in recent years, most narrowband STFT approaches with frame lengths of about
32ms show a rather modest impact of phase on overall performance. At the same
time, modern deep neural network (DNN)-based approaches, like Conv-TasNet, that
implicitly modify both magnitude and phase yield great performance on very
short frames (2ms). Motivated by this observation, in this paper we
systematically investigate the role of phase and magnitude in DNN-based speech
enhancement for different frame lengths. The results show that a phase-aware
DNN can take advantage of what previous studies concerning reconstruction of
clean speech have shown: When using short frames, the phase spectrum becomes
more important while the importance of the magnitude spectrum decreases.
Furthermore, our experiments show that when both magnitude and phase are
estimated, shorter frames result in a considerably improved performance in a
DNN with explicit phase estimation. Contrarily, in the phase-blind case, where
only magnitudes are processed, 32ms frames lead to the best performance. We
conclude that DNN-based phase estimation benefits from the use of shorter
frames and recommend a frame length of about 4ms for future phase-aware deep
speech enhancement methods.
- Abstract(参考訳): 近年, 位相認識型音声処理が注目されているが, フレーム長が約32msの狭い帯域STFTアプローチでは, 全体的な性能に対する位相の影響が比較的小さい。
同時に、Conv-TasNetのような、現代のディープニューラルネットワーク(DNN)ベースのアプローチでは、非常に短いフレーム(2ms)で、大きさとフェーズの両方を暗黙的に変更する。
本稿では,異なるフレーム長に対するDNNに基づく音声強調における位相と大きさの役割を体系的に検討する。
その結果、位相認識型DNNは、クリーン音声の再構成に関するこれまでの研究の利点を生かして、位相スペクトルがより重要になる一方で、大きさスペクトルの重要性が低下することを示した。
さらに, 実験により, 寸法と位相の両方を推定すると, 明らかに位相推定を行うDNNにおいて, フレーム長が大幅に向上することを示した。
逆に、マグニチュードしか処理されないフェーズblindの場合、32msフレームが最高のパフォーマンスをもたらす。
DNNに基づく位相推定は,より短いフレームを用いることで有効であり,将来の位相認識深層音声強調法には約4msのフレーム長を推奨する。
関連論文リスト
- Stage-Wise and Prior-Aware Neural Speech Phase Prediction [28.422370098313788]
本稿では,SP-NSPP(Stage-wise and Prior-Aware Neural Speech Phase Prediction)モデルを提案する。
初期事前構成段階では、振幅スペクトルから粗い前相スペクトルを予め予測する。
その後の精細化段階は、振幅スペクトルを前相に条件付き精製された高品質の位相スペクトルに変換する。
論文 参考訳(メタデータ) (2024-10-07T12:45:20Z) - Adapting to Length Shift: FlexiLength Network for Trajectory Prediction [53.637837706712794]
軌道予測は、自律運転、ロボット工学、シーン理解など、様々な応用において重要な役割を果たしている。
既存のアプローチは主に、一般に標準入力時間を用いて、公開データセットの予測精度を高めるために、コンパクトなニューラルネットワークの開発に重点を置いている。
本稿では,様々な観測期間に対する既存の軌道予測の堅牢性を高めるための,汎用的で効果的なフレームワークFlexiLength Network(FLN)を紹介する。
論文 参考訳(メタデータ) (2024-03-31T17:18:57Z) - SurgPLAN: Surgical Phase Localization Network for Phase Recognition [14.857715124466594]
そこで我々は,より正確で安定した手術相認識を支援するために,SurgPLANと呼ばれる手術相ロカライズネットワークを提案する。
まず、フレームサンプリング率の異なる2つのブランチで複数スケールの空間的特徴と時間的特徴をキャプチャする視覚バックボーンとして、Praamid SlowFast (PSF) アーキテクチャを考案した。
論文 参考訳(メタデータ) (2023-11-16T15:39:01Z) - Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z) - MAST: Multiscale Audio Spectrogram Transformers [53.06337011259031]
音声分類のためのマルチスケール音声スペクトログラム変換器(MAST)について,マルチスケール特徴階層の概念をAST(Audio Spectrogram Transformer)に適用した。
実際に、MASTはLAPEベンチマークの8つの音声および非音声タスクで平均3.4%の精度でASTを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-02T23:34:12Z) - Time Will Tell: New Outlooks and A Baseline for Temporal Multi-View 3D
Object Detection [63.809086864530784]
現在の3D検出法は、限られた歴史を使って物体の知覚を改善する。
我々のフレームワークは、nuScenesで新しい最先端をセットし、テストセットで1位を獲得し、検証セットで5.2%のmAPと3.7%のNDSで過去の最高のアートを上回ります。
論文 参考訳(メタデータ) (2022-10-05T17:59:51Z) - Speech Enhancement with Perceptually-motivated Optimization and Dual
Transformations [5.4878772986187565]
本稿では、PT-FSEと呼ばれる、知覚的モチベーションのある最適化と二重変換を備えたサブバンドベース音声強調システムを提案する。
提案モデルでは背骨よりも大幅に改善されているが,SOTAよりも27%小さく,現状よりも優れていた。
ベンチマークデータセットの平均NB-PESQは3.57であり,これまでに報告された最高の音声強調結果を提供する。
論文 参考訳(メタデータ) (2022-09-24T02:33:40Z) - A neural network-supported two-stage algorithm for lightweight
dereverberation on hearing devices [13.49645012479288]
本稿では,2段階の軽量オンライン補聴器のオンライン補聴アルゴリズムについて述べる。
このアプローチは、マルチチャネルのマルチフレーム線形フィルタとシングルチャネルのシングルフレームポストフィルタを組み合わせる。
どちらのコンポーネントも、ディープニューラルネットワーク(DNN)によって提供されるパワースペクトル密度(PSD)の推定に依存している。
論文 参考訳(メタデータ) (2022-04-06T11:08:28Z) - Long-term Video Frame Interpolation via Feature Propagation [95.18170372022703]
ビデオフレーム(VFI)は、まず入力間の動きを推定し、次に推定された動きで入力を目標時間にワープすることで、中間フレーム(s)を予測する。
入力シーケンス間の時間的距離が増加すると、このアプローチは最適ではない。
本稿では,従来の特徴レベルの予測を新しいモーション・トゥ・フェース・アプローチで拡張した伝搬ネットワーク(PNet)を提案する。
論文 参考訳(メタデータ) (2022-03-29T10:47:06Z) - Dual-branch Attention-In-Attention Transformer for single-channel speech
enhancement [6.894606865794746]
スペクトルの粗い領域ときめ細かい領域を並列に扱うために,DB-AIATと呼ばれる2分岐アテンション変換器を提案する。
本稿では,従来のRNNと時間的畳み込みネットワークを置き換え,時間的シーケンスモデリングのための新しいアテンション・イン・アテンション・トランスフォーマー・ベース・モジュールを提案する。
論文 参考訳(メタデータ) (2021-10-13T03:03:49Z) - Long Short-Term Transformer for Online Action Detection [96.23884916995978]
Long Short-term TRansformer (LSTR) はオンライン行動検出のための新しい時間的モデリングアルゴリズムである。
以前の研究と比較すると、LSTRはアルゴリズム設計の少ない長編動画を効果的かつ効率的にモデル化する方法を提供する。
論文 参考訳(メタデータ) (2021-07-07T17:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。