論文の概要: GAN Vocoder: Multi-Resolution Discriminator Is All You Need
- arxiv url: http://arxiv.org/abs/2103.05236v1
- Date: Tue, 9 Mar 2021 05:47:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-10 14:43:22.808173
- Title: GAN Vocoder: Multi-Resolution Discriminator Is All You Need
- Title(参考訳): GAN Vocoder: マルチリゾリューション判別器は必要なすべてです。
- Authors: Jaeseong You, Dalhyun Kim, Gyuhyeon Nam, Geumbyeol Hwang, Gyeongsu
Chae
- Abstract要約: 1つの共有マルチレゾリューション識別フレームワークとペアリングした6つの異なるジェネレータを評価して仮説を実験的に検証した。
テキスト音声合成およびすべての知覚的指標に関するすべての評価尺度において、それらの性能は、我々の仮説を支持する互いに区別できない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Several of the latest GAN-based vocoders show remarkable achievements,
outperforming autoregressive and flow-based competitors in both qualitative and
quantitative measures while synthesizing orders of magnitude faster. In this
work, we hypothesize that the common factor underlying their success is the
multi-resolution discriminating framework, not the minute details in
architecture, loss function, or training strategy. We experimentally test the
hypothesis by evaluating six different generators paired with one shared
multi-resolution discriminating framework. For all evaluative measures with
respect to text-to-speech syntheses and for all perceptual metrics, their
performances are not distinguishable from one another, which supports our
hypothesis.
- Abstract(参考訳): 最新のGANベースのボコーダのいくつかは、高速なオーダーを合成しながら、定性的かつ定量的に自己回帰的かつフローベースの競合よりも優れたパフォーマンスを発揮している。
本研究では, アーキテクチャ, 損失関数, トレーニング戦略の微妙な詳細ではなく, マルチレゾリューション・差別化フレームワークが成功の根底にある共通の要因である,という仮説を立てる。
1つの共有マルチレゾリューション識別フレームワークとペアリングした6つの異なるジェネレータを評価して仮説を実験的に検証した。
テキスト音声合成およびすべての知覚的指標に関するすべての評価尺度において、それらの性能は、我々の仮説を支持する互いに区別できない。
関連論文リスト
- An Empirical Analysis of Speech Self-Supervised Learning at Multiple Resolutions [0.3495246564946556]
我々は,CCA(Canonical correlation Analysis)とMI(Mutual Information)に着目し,マルチスケールアーキテクチャにおけるレイヤワイズ表現の初期解析を行う。
SuPERBタスクの性能改善は、主にダウンサンプリング自体よりも、補助的な低分解能損失によるものであることが判明した。
これらの知見はMR-HuBERTのマルチスケールな性質に関する仮定に挑戦し、より良い表現の学習から計算効率を遠ざけることの重要性を動機付けている。
論文 参考訳(メタデータ) (2024-10-31T14:09:05Z) - Top-K Pairwise Ranking: Bridging the Gap Among Ranking-Based Measures for Multi-Label Classification [120.37051160567277]
本稿では,Top-K Pairwise Ranking(TKPR)という新しい尺度を提案する。
一連の分析により、TKPRは既存のランキングベースの尺度と互換性があることが示されている。
一方,データ依存縮約法という新しい手法に基づいて,提案手法の急激な一般化を確立する。
論文 参考訳(メタデータ) (2024-07-09T09:36:37Z) - Multi-Dimensional Ability Diagnosis for Machine Learning Algorithms [88.93372675846123]
本稿では,機械学習アルゴリズム評価のためのタスク非依存評価フレームワークCamillaを提案する。
認識診断の仮定とニューラルネットワークを用いて、各サンプルのアルゴリズム、サンプル、スキル間の複雑な相互作用を学習する。
我々の実験では、カミラはメートル法信頼性、ランクの整合性、ランクの安定性で最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-07-14T03:15:56Z) - Modeling the Q-Diversity in a Min-max Play Game for Robust Optimization [61.39201891894024]
群分布的ロバスト最適化(群 DRO)は、事前定義された群に対する最悪の損失を最小限にすることができる。
グループDROフレームワークをQ-Diversityを提案して再構築する。
インタラクティブなトレーニングモードによって特徴付けられるQ-Diversityは、アノテーションからグループ識別を緩和し、直接パラメータ化を行う。
論文 参考訳(メタデータ) (2023-05-20T07:02:27Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Synergies between Disentanglement and Sparsity: Generalization and
Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。
この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:02:09Z) - Revisiting GANs by Best-Response Constraint: Perspective, Methodology,
and Application [49.66088514485446]
ベストレスポンス制約(Best-Response Constraint、BRC)は、ジェネレータのディスクリミネータへの依存性を明示的に定式化する一般的な学習フレームワークである。
モチベーションや定式化の相違があっても, フレキシブルBRC法により, 様々なGANが一様に改善できることが示される。
論文 参考訳(メタデータ) (2022-05-20T12:42:41Z) - Quality-Aware Multimodal Biometric Recognition [30.322429033099688]
弱教師付き方式で評価された品質スコアを重み付けすることで,入力モダリティの表現を融合する品質認識フレームワークを開発する。
このフレームワークは2つの融合ブロックを利用し、それぞれが品質認識ネットワークと集約ネットワークのセットで表される。
顔,虹彩,指紋モダリティからなる3つのマルチモーダルデータセットについて検討し,その性能評価を行った。
論文 参考訳(メタデータ) (2021-12-10T20:48:55Z) - Generalized Adversarially Learned Inference [42.40405470084505]
我々は、画像生成器とエンコーダを逆向きにトレーニングし、画像と潜時ベクトル対の2つの結合分布を一致させることにより、GAN内の潜時変数を推定する方法を開発した。
我々は、望まれるソリューションに関する事前または学習知識に基づいて、再構築、自己監督、その他の形式の監督に関する複数のフィードバック層を組み込んだ。
論文 参考訳(メタデータ) (2020-06-15T02:18:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。