論文の概要: Improving GANs for Speech Enhancement
- arxiv url: http://arxiv.org/abs/2001.05532v3
- Date: Sat, 12 Sep 2020 23:48:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 06:14:44.474607
- Title: Improving GANs for Speech Enhancement
- Title(参考訳): 音声強調のためのgan改善
- Authors: Huy Phan and Ian V. McLoughlin and Lam Pham and Oliver Y. Ch\'en and
Philipp Koch and Maarten De Vos and Alfred Mertins
- Abstract要約: マルチステージエンハンスメントマッピングを行うために,複数のジェネレータをチェーン化することを提案する。
提案手法は, 1段SEGANベースラインよりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 19.836041050328102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative adversarial networks (GAN) have recently been shown to be
efficient for speech enhancement. However, most, if not all, existing speech
enhancement GANs (SEGAN) make use of a single generator to perform one-stage
enhancement mapping. In this work, we propose to use multiple generators that
are chained to perform multi-stage enhancement mapping, which gradually refines
the noisy input signals in a stage-wise fashion. Furthermore, we study two
scenarios: (1) the generators share their parameters and (2) the generators'
parameters are independent. The former constrains the generators to learn a
common mapping that is iteratively applied at all enhancement stages and
results in a small model footprint. On the contrary, the latter allows the
generators to flexibly learn different enhancement mappings at different stages
of the network at the cost of an increased model size. We demonstrate that the
proposed multi-stage enhancement approach outperforms the one-stage SEGAN
baseline, where the independent generators lead to more favorable results than
the tied generators. The source code is available at
http://github.com/pquochuy/idsegan.
- Abstract(参考訳): generative adversarial networks (gan) は音声強調に効率的であることが最近示されている。
しかし、ほとんどの場合、既存の音声強調GAN(SEGAN)は1段拡張マッピングを実行するために1つのジェネレータを使用する。
本研究では,多段強調マッピングを行うために連鎖する複数の生成器を用いて,段階的にノイズの少ない入力信号を洗練する手法を提案する。
さらに,(1)ジェネレータのパラメータの共有,(2)ジェネレータのパラメータの独立性,という2つのシナリオについて検討した。
前者は、すべての拡張段階で反復的に適用され、結果として小さなモデルフットプリントとなる共通のマッピングを学ぶことをジェネレータに制約する。
それとは対照的に、ジェネレータはモデルサイズを増大させるコストで、ネットワークの異なるステージで異なる拡張マッピングを柔軟に学習することができる。
提案手法は1段のSEGANベースラインよりも優れており, 独立発電機の方が結合発電機よりも良好な結果が得られた。
ソースコードはhttp://github.com/pquochuy/idseganで入手できる。
関連論文リスト
- Improving Out-of-Distribution Robustness of Classifiers via Generative
Interpolation [56.620403243640396]
ディープニューラルネットワークは、独立かつ同一に分散されたデータ(すなわち、d)から学習する上で、優れたパフォーマンスを達成する。
しかし、アウト・オブ・ディストリビューション(OoD)データを扱う場合、その性能は著しく低下する。
多様なOoDサンプルを合成するために,複数のドメインから学習した生成モデルを融合するための生成補間法(Generative Interpolation)を開発した。
論文 参考訳(メタデータ) (2023-07-23T03:53:53Z) - Learning Probabilistic Models from Generator Latent Spaces with Hat EBM [81.35199221254763]
本研究では、エネルギーベースモデル(EBM)の基礎として、任意のジェネレータネットワークを使用する方法を提案する。
128x128解像度の非条件画像ネット合成,(2)既存の生成装置の出力の精細化,(3)非確率的生成装置を組み込んだ学習用EMMにおいて,提案手法の強い性能を示す。
論文 参考訳(メタデータ) (2022-10-29T03:55:34Z) - Structural Prior Guided Generative Adversarial Transformers for
Low-Light Image Enhancement [51.22694467126883]
低照度画像強調を実現するために,SPGAT (Structure Prior Guided Generative Adversarial Transformer) を提案する。
このジェネレータはU字型のトランスフォーマーをベースとしており、非局所的な情報を探り、画像の鮮明な復元に役立てている。
より現実的な画像を生成するために,生成器と識別器のスキップ接続を構築することによって,新しい構造的事前学習手法を開発した。
論文 参考訳(メタデータ) (2022-07-16T04:05:40Z) - Toward Spatially Unbiased Generative Models [19.269719158344508]
最近の画像生成モデルは顕著な生成性能を示している。
しかし、それらは、空間バイアスと呼ばれるデータセットの強い位置優先を反映している。
生成元は空間的コンテンツを描画するために暗黙的な位置エンコーディングに頼っていると論じる。
論文 参考訳(メタデータ) (2021-08-03T04:13:03Z) - Total Generate: Cycle in Cycle Generative Adversarial Networks for
Generating Human Faces, Hands, Bodies, and Natural Scenes [76.83075646527521]
C2GAN(Cycle in Cycle Generative Adversarial Network)は、人間の顔、手、体、自然のシーンのための自転車。
提案するC2GANは,入力画像データとガイダンスデータの相互利用を対話的に探索するクロスモーダルモデルである。
論文 参考訳(メタデータ) (2021-06-21T06:20:16Z) - Combining Transformer Generators with Convolutional Discriminators [9.83490307808789]
最近提案されたTransGANはトランスフォーマーアーキテクチャのみを使用した最初のGANである。
TransGANは、データ拡張、トレーニング中の補助的な超解像タスク、そして自己保持メカニズムを導く前にマスクを必要とする。
我々は、よく知られたCNN識別器のベンチマークを行い、トランスフォーマーベースジェネレータのサイズを減らし、両方のアーキテクチャ要素をハイブリッドモデルに組み込むことにより、より良い結果をもたらすことを示す。
論文 参考訳(メタデータ) (2021-05-21T07:56:59Z) - Slimmable Generative Adversarial Networks [54.61774365777226]
近年、GAN(Generative adversarial Network)は目覚ましい進歩を遂げていますが、モデルの継続的な拡大は、実用的なアプリケーションに広く展開することを困難にしています。
本稿では,実行時の各種品質効率トレードオフに対応するため,発電機の幅を柔軟に切り替えることのできるスリムブルGANを提案する。
論文 参考訳(メタデータ) (2020-12-10T13:35:22Z) - Remote sensing image fusion based on Bayesian GAN [9.852262451235472]
PANとMSの画像を入力として使用する2ストリームジェネレータネットワークを構築し,特徴抽出,特徴融合,画像再構成という3つの部分から構成される。
我々はマルコフ判別器を活用し、融合画像の再構成能力を高めることにより、結果画像がより詳細な情報を保持することができる。
QuickBirdとWorldViewのデータセット実験により,本論文で提案したモデルがPANとMSの画像を効果的に融合できることが示されている。
論文 参考訳(メタデータ) (2020-09-20T16:15:51Z) - Unconditional Audio Generation with Generative Adversarial Networks and
Cycle Regularization [48.55126268721948]
本稿では,歌声のメル-スペクトログラムの無条件生成のためのGANモデルを提案する。
我々は、時間次元のいくつかの構造を誘導するために、ジェネレータに階層的アーキテクチャーを用いる。
歌声生成だけでなく,歌声生成のための新モデルの性能評価を行った。
論文 参考訳(メタデータ) (2020-05-18T08:35:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。