論文の概要: Automatic Tuning of Loss Trade-offs without Hyper-parameter Search in
End-to-End Zero-Shot Speech Synthesis
- arxiv url: http://arxiv.org/abs/2305.16699v1
- Date: Fri, 26 May 2023 07:39:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 16:32:27.295668
- Title: Automatic Tuning of Loss Trade-offs without Hyper-parameter Search in
End-to-End Zero-Shot Speech Synthesis
- Title(参考訳): 終端ゼロショット音声合成におけるハイパーパラメータ探索のない損失トレードオフの自動調整
- Authors: Seongyeon Park, Bohyung Kim, Tae-hyun Oh
- Abstract要約: ゼロショットTSとVCの手法は、訓練中に見つからない音声を生成できるという実用性から注目を集めている。
提案手法は,VITSモデルデコーダを完全な再構成能力に誘導することで,探索なしでこの最適性を見出す新しいフレームワークを提案する。
我々のフレームワークでは、ゼロショットTSやVCのベースラインに比べて優れたパフォーマンスを示し、最先端のパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 17.22112222736234
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, zero-shot TTS and VC methods have gained attention due to their
practicality of being able to generate voices even unseen during training.
Among these methods, zero-shot modifications of the VITS model have shown
superior performance, while having useful properties inherited from VITS.
However, the performance of VITS and VITS-based zero-shot models vary
dramatically depending on how the losses are balanced. This can be problematic,
as it requires a burdensome procedure of tuning loss balance hyper-parameters
to find the optimal balance. In this work, we propose a novel framework that
finds this optimum without search, by inducing the decoder of VITS-based models
to its full reconstruction ability. With our framework, we show superior
performance compared to baselines in zero-shot TTS and VC, achieving
state-of-the-art performance. Furthermore, we show the robustness of our
framework in various settings. We provide an explanation for the results in the
discussion.
- Abstract(参考訳): 近年、ゼロショットTSとVCの手法は、訓練中に見つからない音声を生成できるという実用性から注目されている。
これらの手法のうち、VITSモデルのゼロショット修正は、VITSから受け継いだ有用な特性を持ちながら、優れた性能を示した。
しかし、VITSとVITSベースのゼロショットモデルの性能は、損失のバランスによって大きく異なる。
最適のバランスを見つけるには、損失バランスハイパーパラメータを調整しなければならないため、これは問題となる可能性がある。
本研究では,vitsに基づくモデルのデコーダを完全再構成能力に誘導することにより,探索なしで最適であることを示す新しい枠組みを提案する。
我々のフレームワークでは、ゼロショットTSやVCのベースラインに比べて優れたパフォーマンスを示し、最先端のパフォーマンスを実現しています。
さらに、さまざまな設定でフレームワークの堅牢性を示す。
私たちはその議論の結果について説明します。
関連論文リスト
- Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - Zero-Shot Distillation for Image Encoders: How to Make Effective Use of Synthetic Data [40.37396692278567]
我々は、効率的なゼロショット分類のための画像エンコーダの小さな変種を訓練することに重点を置いている。
合成データの使用は、より大きな教師の蒸留表現において有望であることが示され、強い数発のプローブ性能と線形プローブ性能が得られた。
対照的な損失を使用する場合、真のゼロショット設定では、このアプローチが驚くほど失敗することがわかった。
論文 参考訳(メタデータ) (2024-04-25T14:24:41Z) - Low-Rank Rescaled Vision Transformer Fine-Tuning: A Residual Design Approach [17.678759882763078]
事前訓練されたビジョントランスフォーマーの微調整は、下流のタスクにモデルを十分にカスタマイズすることを目的としている。
事前訓練されたモデルの一般化可能な表現能力を維持することと、タスク固有の特徴を取得することのバランスを取ることは重要な課題である。
本稿では,Residual-based Low-Rank Rescaling (RLRR)ファインチューニング戦略を提案する。
論文 参考訳(メタデータ) (2024-03-28T00:14:53Z) - Investigating the Emergent Audio Classification Ability of ASR Foundation Models [39.67769732947647]
本稿では,主に音声認識のために訓練された音声認識基礎モデルであるWhisperとMMSが,ゼロショット音声分類を行うことができることを示す。
以上の結果から,Whisperは8種類の音声分類データセットに対してゼロショット分類性能を示し,既存のゼロショットベースラインの精度を平均9%向上させることを示した。
さらに、モデルサイズによって性能が向上し、ASR基盤モデルがスケールアップされるにつれて、ゼロショット性能が向上する可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-15T20:52:56Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Re-Evaluating LiDAR Scene Flow for Autonomous Driving [80.37947791534985]
自己教師型LiDARシーンフローの一般的なベンチマークは、動的動き、非現実的な対応、非現実的なサンプリングパターンの非現実的な速度を持つ。
実世界のデータセットのスイート上で,トップメソッドのスイートを評価する。
学習に重点を置いているにもかかわらず、ほとんどのパフォーマンス向上は前処理と後処理のステップによって引き起こされる。
論文 参考訳(メタデータ) (2023-04-04T22:45:50Z) - GOHSP: A Unified Framework of Graph and Optimization-based Heterogeneous
Structured Pruning for Vision Transformer [76.2625311630021]
視覚変換器(ViT)は、様々なコンピュータビジョンタスクにおいて非常に印象的な経験的性能を示している。
この問題を緩和するために、構造化プルーニングはモデルサイズを圧縮し、実用的な効率を実現するための有望な解決策である。
グラフと最適化に基づく構造的プルーニング(Structured Pruning)を統合化したフレームワークであるGOHSPを提案する。
論文 参考訳(メタデータ) (2023-01-13T00:40:24Z) - SiRi: A Simple Selective Retraining Mechanism for Transformer-based
Visual Grounding [131.0977050185209]
Selective Retraining (SiRi)は3つの人気のあるベンチマークにおいて、従来のアプローチよりも大幅に優れている。
SiRiは、限られたトレーニングデータでも驚くほど優れている。
また,その妥当性を検証するために,トランスフォーマーベース視覚接地モデルや他の視覚言語タスクにも拡張する。
論文 参考訳(メタデータ) (2022-07-27T07:01:01Z) - Sharpness-Aware Minimization for Efficiently Improving Generalization [36.87818971067698]
本稿では,損失値と損失シャープネスを同時に最小化する新しい効果的な手法を提案する。
シャープネス・アウェアの最小化(SAM)は、一様損失の少ない地区にあるパラメータを求める。
SAMは様々なベンチマークデータセットのモデル一般化を改善することを示す実験結果を示す。
論文 参考訳(メタデータ) (2020-10-03T19:02:10Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。