論文の概要: DPATD: Dual-Phase Audio Transformer for Denoising
- arxiv url: http://arxiv.org/abs/2310.19588v1
- Date: Mon, 30 Oct 2023 14:44:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 19:57:36.532179
- Title: DPATD: Dual-Phase Audio Transformer for Denoising
- Title(参考訳): DPATD:Dual-Phase Audio Transformer for Denoising
- Authors: Junhui Li, Pu Wang, Jialu Li, Xinzhe Wang, Youshan Zhang
- Abstract要約: 本稿では,denoising (DPATD) のための2相音響変換器を提案する。
メモリに圧縮された説明可能な注意は効率的で、頻繁に使用される自己注意モジュールよりも早く収束する。
- 参考スコア(独自算出の注目度): 25.097894984130733
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Recent high-performance transformer-based speech enhancement models
demonstrate that time domain methods could achieve similar performance as
time-frequency domain methods. However, time-domain speech enhancement systems
typically receive input audio sequences consisting of a large number of time
steps, making it challenging to model extremely long sequences and train models
to perform adequately. In this paper, we utilize smaller audio chunks as input
to achieve efficient utilization of audio information to address the above
challenges. We propose a dual-phase audio transformer for denoising (DPATD), a
novel model to organize transformer layers in a deep structure to learn clean
audio sequences for denoising. DPATD splits the audio input into smaller
chunks, where the input length can be proportional to the square root of the
original sequence length. Our memory-compressed explainable attention is
efficient and converges faster compared to the frequently used self-attention
module. Extensive experiments demonstrate that our model outperforms
state-of-the-art methods.
- Abstract(参考訳): 近年の高性能トランスフォーマーベース音声強調モデルでは,時間領域法が時間周波数領域法と同等の性能を達成できることが示されている。
しかし、時間領域音声強調システムは、通常、多数の時間ステップからなる入力音声シーケンスを受け取り、非常に長いシーケンスをモデル化し、適切な動作を訓練することは困難である。
本稿では,より小さな音声チャンクを入力として利用し,上記の課題に対処するために,音声情報の効率的な活用を実現する。
本研究では,二重位相オーディオトランスフォーマ(dpatd)を提案する。トランスフォーマ層を深層構造に整理し,クリーンなオーディオシーケンスを学習する新しいモデルである。
DPATDは音声入力を小さなチャンクに分割し、入力長は元のシーケンス長の平方根に比例することができる。
メモリに圧縮された説明可能な注意は効率的で、頻繁に使用される自己注意モジュールよりも早く収束する。
我々のモデルは最先端の手法よりも優れています。
関連論文リスト
- Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - On Time Domain Conformer Models for Monaural Speech Separation in Noisy
Reverberant Acoustic Environments [20.592466025674643]
時間領域コンバータ(TD-Conformers)は、局所的およびグローバル的コンテキストを逐次処理するDPアプローチの類似体である。
最高のTD-Conformerは、WHAMRとWSJ0-2Mixベンチマークで14.6dBと21.2dB SISDRの改善を達成した。
論文 参考訳(メタデータ) (2023-10-09T20:02:11Z) - RTFS-Net: Recurrent Time-Frequency Modelling for Efficient Audio-Visual Speech Separation [18.93255531121519]
本稿では,時間周波数領域の音声-視覚音声分離手法を提案する。
RTFS-Netはそのアルゴリズムをショートタイムフーリエ変換によって得られる複雑な時間周波数ビンに適用する。
これは、時間周波数領域の音声・視覚的音声分離法として初めて、現代の時間領域の全てを上回ります。
論文 参考訳(メタデータ) (2023-09-29T12:38:00Z) - Parameter Efficient Audio Captioning With Faithful Guidance Using
Audio-text Shared Latent Representation [0.9285295512807729]
本稿では,幻覚音の字幕を生成するためのデータ拡張手法を提案する。
次に,パラメータ効率の良い推論時間忠実復号アルゴリズムを提案し,より多くのデータで訓練されたより大きなモデルに匹敵する性能を持つ小型オーディオキャプションモデルを実現する。
論文 参考訳(メタデータ) (2023-09-06T19:42:52Z) - Make-An-Audio 2: Temporal-Enhanced Text-to-Audio Generation [72.7915031238824]
大規模な拡散モデルは、テキスト・トゥ・オーディオ(T2A)合成タスクで成功している。
意味的不一致や時間的一貫性の低下といった共通の問題に悩まされることが多い。
我々は,Make-an-Audioの成功に基づいて,潜伏拡散に基づくT2A法であるMake-an-Audio 2を提案する。
論文 参考訳(メタデータ) (2023-05-29T10:41:28Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z) - MAST: Multiscale Audio Spectrogram Transformers [53.06337011259031]
音声分類のためのマルチスケール音声スペクトログラム変換器(MAST)について,マルチスケール特徴階層の概念をAST(Audio Spectrogram Transformer)に適用した。
実際に、MASTはLAPEベンチマークの8つの音声および非音声タスクで平均3.4%の精度でASTを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-02T23:34:12Z) - Audiomer: A Convolutional Transformer for Keyword Spotting [0.0]
本稿では,1D Residual NetworksとPerformer Attentionを組み合わせることで,キーワードスポッティングにおける最先端のパフォーマンスを実現するAudiomerを紹介する。
Audiomerは、計算制約のあるデバイスへのデプロイと、より小さなデータセットでのトレーニングを可能にする。
論文 参考訳(メタデータ) (2021-09-21T15:28:41Z) - Voice2Series: Reprogramming Acoustic Models for Time Series
Classification [65.94154001167608]
Voice2Seriesは、時系列分類のための音響モデルをプログラムする新しいエンドツーエンドアプローチである。
V2Sは20のタスクで性能が優れるか、最先端のメソッドと結びついているかを示し、平均精度を1.84%向上させる。
論文 参考訳(メタデータ) (2021-06-17T07:59:15Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。