論文の概要: Self-Attention Generative Adversarial Network for Speech Enhancement
- arxiv url: http://arxiv.org/abs/2010.09132v3
- Date: Sat, 6 Feb 2021 19:51:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 04:45:57.128864
- Title: Self-Attention Generative Adversarial Network for Speech Enhancement
- Title(参考訳): 音声強調のための自己注意生成対向ネットワーク
- Authors: Huy Phan, Huy Le Nguyen, Oliver Y. Ch\'en, Philipp Koch, Ngoc Q. K.
Duong, Ian McLoughlin, Alfred Mertins
- Abstract要約: 音声強調のための既存のGAN(Generative Adversarial Network)は、畳み込み操作のみに依存している。
音声強調GANの畳み込み層, 畳み込み層, 畳み込み層, 畳み込み層と、非局所的な注意から適応した自己注意層を提案する。
実験の結果,SEGANに自己注意を導入することで,改善性能の客観的評価指標が一貫した改善につながることが示された。
- 参考スコア(独自算出の注目度): 37.14341228976058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing generative adversarial networks (GANs) for speech enhancement solely
rely on the convolution operation, which may obscure temporal dependencies
across the sequence input. To remedy this issue, we propose a self-attention
layer adapted from non-local attention, coupled with the convolutional and
deconvolutional layers of a speech enhancement GAN (SEGAN) using raw signal
input. Further, we empirically study the effect of placing the self-attention
layer at the (de)convolutional layers with varying layer indices as well as at
all of them when memory allows. Our experiments show that introducing
self-attention to SEGAN leads to consistent improvement across the objective
evaluation metrics of enhancement performance. Furthermore, applying at
different (de)convolutional layers does not significantly alter performance,
suggesting that it can be conveniently applied at the highest-level
(de)convolutional layer with the smallest memory overhead.
- Abstract(参考訳): 音声強調のための既存の生成逆ネットワーク(GAN)は、畳み込み操作のみに依存しており、シーケンス入力間の時間的依存が曖昧である可能性がある。
そこで本研究では,非局所的な注意から適応した自己注意層と,生信号入力を用いた音声強調GAN(SEGAN)の畳み込み・畳み込み層とを組み合わせることを提案する。
さらに,メモリ使用時の自己着床層を(de)畳み込み層に配置し,それぞれに異なる階層のインデックスを付与する効果について実験的に検討した。
実験の結果,SEGANに自己注意を導入することで,目標評価指標の強化性能が一貫した改善につながることが示された。
さらに、異なる(de)畳み込み層で適用しても性能が著しく変化しないため、メモリオーバーヘッドが最小の(de)畳み込み層で便利に適用できることが示唆されている。
関連論文リスト
- Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z) - Deep Augmentation: Self-Supervised Learning with Transformations in Activation Space [19.495587566796278]
我々は、Deep Augmentationを導入し、DropoutまたはPCAを使用して暗黙のデータ拡張を行い、ニューラルネットワーク内のターゲット層を変換し、パフォーマンスと一般化を改善する。
我々は、NLP、コンピュータビジョン、グラフ学習におけるコントラスト学習タスクに関する広範な実験を通して、Deep Augmentationを実証する。
論文 参考訳(メタデータ) (2023-03-25T19:03:57Z) - Kernel function impact on convolutional neural networks [10.98068123467568]
畳み込みニューラルネットワークの異なる層におけるカーネル関数の利用について検討する。
より歪みに敏感なプール層を導入することで、カーネル関数を効果的に活用する方法を示す。
完全接続層を置き換えるKDL(Kernelized Dense Layers)を提案する。
論文 参考訳(メタデータ) (2023-02-20T19:57:01Z) - Skip-Attention: Improving Vision Transformers by Paying Less Attention [55.47058516775423]
視覚計算変換器(ViT)は、すべての層で高価な自己注意操作を使用する。
また,SkipAtを提案する。SkipAtは,先行層から自己注意を再利用して1層以上の注意を近似する手法である。
本稿では,画像の分類と自己教師型学習,ADE20Kのセマンティックセグメンテーション,SIDDの画像デノイング,DAVISのビデオデノナイズにおける手法の有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:59:52Z) - Exploiting Explainable Metrics for Augmented SGD [43.00691899858408]
最適化下での学習が実際にどのように機能するか、また、特定の戦略が他の方法よりも優れている理由について、未解決の疑問がいくつかある。
ネットワーク層内の冗長な情報を計測する新しい説明可能性指標を提案する。
次に、これらの指標を利用して、各レイヤの学習率を適応的に調整し、一般化性能を向上させることにより、グラディエント・ディフレッシュ(SGD)を増大させる。
論文 参考訳(メタデータ) (2022-03-31T00:16:44Z) - Augmenting Convolutional networks with attention-based aggregation [55.97184767391253]
我々は,非局所的推論を実現するために,注目に基づくグローバルマップを用いた畳み込みネットワークの強化方法を示す。
この学習集約層を2つのパラメータ(幅と深さ)でパラメータ化した単純パッチベースの畳み込みネットワークで接続する。
これは、特にメモリ消費の点で、精度と複雑さの間の驚くほど競争力のあるトレードオフをもたらす。
論文 参考訳(メタデータ) (2021-12-27T14:05:41Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Rethinking Skip Connection with Layer Normalization in Transformers and
ResNets [49.87919454950763]
スキップ接続は、ディープニューラルネットワークの性能を改善するために広く使われているテクニックである。
本研究では,スキップ接続の有効性におけるスケール要因について検討する。
論文 参考訳(メタデータ) (2021-05-15T11:44:49Z) - Joint Self-Attention and Scale-Aggregation for Self-Calibrated Deraining
Network [13.628218953897946]
本稿では,JDNetとよばれる有効アルゴリズムを提案する。
自己校正畳み込みを用いたスケール・アグリゲーション・セルフアグリゲーション・モジュールを巧みに設計することにより,提案モデルはより優れたデコレーション結果が得られる。
論文 参考訳(メタデータ) (2020-08-06T17:04:34Z) - When Can Self-Attention Be Replaced by Feed Forward Layers? [40.991809705930955]
エンコーダ上の自己注意層をフィードフォワード層に置き換えると、パフォーマンスが低下せず、多少の利益も得られません。
我々の実験は、自己注意層が音声信号をどのように処理するかについての洞察を提供する。
論文 参考訳(メタデータ) (2020-05-28T10:35:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。