論文の概要: Automatic Tuning of Loss Trade-offs without Hyper-parameter Search in
End-to-End Zero-Shot Speech Synthesis
- arxiv url: http://arxiv.org/abs/2305.16699v1
- Date: Fri, 26 May 2023 07:39:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 16:32:27.295668
- Title: Automatic Tuning of Loss Trade-offs without Hyper-parameter Search in
End-to-End Zero-Shot Speech Synthesis
- Title(参考訳): 終端ゼロショット音声合成におけるハイパーパラメータ探索のない損失トレードオフの自動調整
- Authors: Seongyeon Park, Bohyung Kim, Tae-hyun Oh
- Abstract要約: ゼロショットTSとVCの手法は、訓練中に見つからない音声を生成できるという実用性から注目を集めている。
提案手法は,VITSモデルデコーダを完全な再構成能力に誘導することで,探索なしでこの最適性を見出す新しいフレームワークを提案する。
我々のフレームワークでは、ゼロショットTSやVCのベースラインに比べて優れたパフォーマンスを示し、最先端のパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 17.22112222736234
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, zero-shot TTS and VC methods have gained attention due to their
practicality of being able to generate voices even unseen during training.
Among these methods, zero-shot modifications of the VITS model have shown
superior performance, while having useful properties inherited from VITS.
However, the performance of VITS and VITS-based zero-shot models vary
dramatically depending on how the losses are balanced. This can be problematic,
as it requires a burdensome procedure of tuning loss balance hyper-parameters
to find the optimal balance. In this work, we propose a novel framework that
finds this optimum without search, by inducing the decoder of VITS-based models
to its full reconstruction ability. With our framework, we show superior
performance compared to baselines in zero-shot TTS and VC, achieving
state-of-the-art performance. Furthermore, we show the robustness of our
framework in various settings. We provide an explanation for the results in the
discussion.
- Abstract(参考訳): 近年、ゼロショットTSとVCの手法は、訓練中に見つからない音声を生成できるという実用性から注目されている。
これらの手法のうち、VITSモデルのゼロショット修正は、VITSから受け継いだ有用な特性を持ちながら、優れた性能を示した。
しかし、VITSとVITSベースのゼロショットモデルの性能は、損失のバランスによって大きく異なる。
最適のバランスを見つけるには、損失バランスハイパーパラメータを調整しなければならないため、これは問題となる可能性がある。
本研究では,vitsに基づくモデルのデコーダを完全再構成能力に誘導することにより,探索なしで最適であることを示す新しい枠組みを提案する。
我々のフレームワークでは、ゼロショットTSやVCのベースラインに比べて優れたパフォーマンスを示し、最先端のパフォーマンスを実現しています。
さらに、さまざまな設定でフレームワークの堅牢性を示す。
私たちはその議論の結果について説明します。
関連論文リスト
- Towards Lightweight and Stable Zero-shot TTS with Self-distilled Representation Disentanglement [17.020173869112163]
軽量で安定なテキスト音声合成システム(TTS)を提案する。
本稿では,音源音声から言語内容や話者属性を効果的にモデル化する新しいTSアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-01-15T04:17:48Z) - Semantic Hierarchical Prompt Tuning for Parameter-Efficient Fine-Tuning [13.384550074613717]
Visual Prompt Tuningは、フル微調整に比べて優れたパフォーマンスで知られている。
船は性能を大幅に改善し、VTAB-1kタスクのVT-B/16バックボーンでVPTよりも精度が4.9%向上した。
論文 参考訳(メタデータ) (2024-12-22T10:28:52Z) - VRVVC: Variable-Rate NeRF-Based Volumetric Video Compression [59.14355576912495]
NeRFベースのビデオは、FVV(Photorealistic Free-Viewpoint Video)体験を提供することによって、ビジュアルメディアに革命をもたらした。
大量のデータボリュームは、ストレージと送信に重大な課題をもたらす。
ビデオ圧縮のための新しいエンドツーエンドの可変レートフレームワークであるVRVVCを提案する。
論文 参考訳(メタデータ) (2024-12-16T01:28:04Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - Investigating the Emergent Audio Classification Ability of ASR Foundation Models [39.67769732947647]
本稿では,主に音声認識のために訓練された音声認識基礎モデルであるWhisperとMMSが,ゼロショット音声分類を行うことができることを示す。
以上の結果から,Whisperは8種類の音声分類データセットに対してゼロショット分類性能を示し,既存のゼロショットベースラインの精度を平均9%向上させることを示した。
さらに、モデルサイズによって性能が向上し、ASR基盤モデルがスケールアップされるにつれて、ゼロショット性能が向上する可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-15T20:52:56Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - SiRi: A Simple Selective Retraining Mechanism for Transformer-based
Visual Grounding [131.0977050185209]
Selective Retraining (SiRi)は3つの人気のあるベンチマークにおいて、従来のアプローチよりも大幅に優れている。
SiRiは、限られたトレーニングデータでも驚くほど優れている。
また,その妥当性を検証するために,トランスフォーマーベース視覚接地モデルや他の視覚言語タスクにも拡張する。
論文 参考訳(メタデータ) (2022-07-27T07:01:01Z) - Sharpness-Aware Minimization for Efficiently Improving Generalization [36.87818971067698]
本稿では,損失値と損失シャープネスを同時に最小化する新しい効果的な手法を提案する。
シャープネス・アウェアの最小化(SAM)は、一様損失の少ない地区にあるパラメータを求める。
SAMは様々なベンチマークデータセットのモデル一般化を改善することを示す実験結果を示す。
論文 参考訳(メタデータ) (2020-10-03T19:02:10Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。