Fugu-MT 論文翻訳(概要): Automatic Tuning of Loss Trade-offs without Hyper-parameter Search in End-to-End Zero-Shot Speech Synthesis

論文の概要: Automatic Tuning of Loss Trade-offs without Hyper-parameter Search in End-to-End Zero-Shot Speech Synthesis

arxiv url: http://arxiv.org/abs/2305.16699v1
Date: Fri, 26 May 2023 07:39:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-29 16:32:27.295668
Title: Automatic Tuning of Loss Trade-offs without Hyper-parameter Search in End-to-End Zero-Shot Speech Synthesis
Title（参考訳）: 終端ゼロショット音声合成におけるハイパーパラメータ探索のない損失トレードオフの自動調整
Authors: Seongyeon Park, Bohyung Kim, Tae-hyun Oh
Abstract要約: ゼロショットTSとVCの手法は、訓練中に見つからない音声を生成できるという実用性から注目を集めている。提案手法は,VITSモデルデコーダを完全な再構成能力に誘導することで,探索なしでこの最適性を見出す新しいフレームワークを提案する。我々のフレームワークでは、ゼロショットTSやVCのベースラインに比べて優れたパフォーマンスを示し、最先端のパフォーマンスを実現しています。
参考スコア（独自算出の注目度）: 17.22112222736234
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recently, zero-shot TTS and VC methods have gained attention due to their practicality of being able to generate voices even unseen during training. Among these methods, zero-shot modifications of the VITS model have shown superior performance, while having useful properties inherited from VITS. However, the performance of VITS and VITS-based zero-shot models vary dramatically depending on how the losses are balanced. This can be problematic, as it requires a burdensome procedure of tuning loss balance hyper-parameters to find the optimal balance. In this work, we propose a novel framework that finds this optimum without search, by inducing the decoder of VITS-based models to its full reconstruction ability. With our framework, we show superior performance compared to baselines in zero-shot TTS and VC, achieving state-of-the-art performance. Furthermore, we show the robustness of our framework in various settings. We provide an explanation for the results in the discussion.
Abstract（参考訳）: 近年、ゼロショットTSとVCの手法は、訓練中に見つからない音声を生成できるという実用性から注目されている。これらの手法のうち、VITSモデルのゼロショット修正は、VITSから受け継いだ有用な特性を持ちながら、優れた性能を示した。しかし、VITSとVITSベースのゼロショットモデルの性能は、損失のバランスによって大きく異なる。最適のバランスを見つけるには、損失バランスハイパーパラメータを調整しなければならないため、これは問題となる可能性がある。本研究では,vitsに基づくモデルのデコーダを完全再構成能力に誘導することにより,探索なしで最適であることを示す新しい枠組みを提案する。我々のフレームワークでは、ゼロショットTSやVCのベースラインに比べて優れたパフォーマンスを示し、最先端のパフォーマンスを実現しています。さらに、さまざまな設定でフレームワークの堅牢性を示す。私たちはその議論の結果について説明します。

関連論文リスト

Multi-Scale Finetuning for Encoder-based Time Series Foundation Models [56.503053716053]
時系列基礎モデル (TSFM) は, 時系列予測において印象的なゼロショット性能を示す。我々は、TSFMの能力を十分に活用するに足りず、しばしば過度な適合と準最適性能をもたらすと論じている。マルチスケールモデリングをファインタニングプロセスに明示的に統合するシンプルなフレームワークであるtextbftextscfinetextbftextsctuning (textbfMSFT)を提案する。
論文参考訳（メタデータ） (2025-06-17T01:06:01Z)
VIVAT: Virtuous Improving VAE Training through Artifact Mitigation [4.295130967329365]
本稿では, KL-VAEトレーニングにおいて, 急激なアーキテクチャ変更を伴わずに, 共通成果物を緩和するための体系的アプローチであるVIVATを紹介する。カラーシフト、グリッドパターン、ぼやけ、コーナー、ドロップレットアーティファクトの5つの一般的なアーティファクトの詳細な分類を示し、その根本原因を分析します。
論文参考訳（メタデータ） (2025-06-09T15:27:03Z)
Tuning for Trustworthiness -- Balancing Performance and Explanation Consistency in Neural Network Optimization [49.567092222782435]
我々は,異なる特徴帰属法間の合意として定義された,XAI整合性という新しい概念を紹介する。予測性能と説明のバランスをとる多目的最適化フレームワークを構築した。本研究は、トレードオフゾーンバランス性能損失とXAI整合性による強靭性向上のモデルについて、今後の研究基盤を提供する。
論文参考訳（メタデータ） (2025-05-12T13:19:14Z)
InvFussion: Bridging Supervised and Zero-shot Diffusion for Inverse Problems [76.39776789410088]
この研究は、教師付きアプローチの強いパフォーマンスとゼロショットメソッドの柔軟性を組み合わせたフレームワークを導入している。新規なアーキテクチャ設計では、分解演算子を直接デノイザにシームレスに統合する。 FFHQとImageNetデータセットの実験結果は、最先端の後方サンプリング性能を示している。
論文参考訳（メタデータ） (2025-04-02T12:40:57Z)
Towards Lightweight and Stable Zero-shot TTS with Self-distilled Representation Disentanglement [17.020173869112163]
軽量で安定なテキスト音声合成システム(TTS)を提案する。本稿では,音源音声から言語内容や話者属性を効果的にモデル化する新しいTSアーキテクチャを提案する。
論文参考訳（メタデータ） (2025-01-15T04:17:48Z)
Semantic Hierarchical Prompt Tuning for Parameter-Efficient Fine-Tuning [13.384550074613717]
Visual Prompt Tuningは、フル微調整に比べて優れたパフォーマンスで知られている。船は性能を大幅に改善し、VTAB-1kタスクのVT-B/16バックボーンでVPTよりも精度が4.9%向上した。
論文参考訳（メタデータ） (2024-12-22T10:28:52Z)
VRVVC: Variable-Rate NeRF-Based Volumetric Video Compression [59.14355576912495]
NeRFベースのビデオは、FVV(Photorealistic Free-Viewpoint Video)体験を提供することによって、ビジュアルメディアに革命をもたらした。大量のデータボリュームは、ストレージと送信に重大な課題をもたらす。ビデオ圧縮のための新しいエンドツーエンドの可変レートフレームワークであるVRVVCを提案する。
論文参考訳（メタデータ） (2024-12-16T01:28:04Z)
Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2024-11-02T18:18:35Z)
Zero-Shot Distillation for Image Encoders: How to Make Effective Use of Synthetic Data [40.37396692278567]
我々は、効率的なゼロショット分類のための画像エンコーダの小さな変種を訓練することに重点を置いている。合成データの使用は、より大きな教師の蒸留表現において有望であることが示され、強い数発のプローブ性能と線形プローブ性能が得られた。対照的な損失を使用する場合、真のゼロショット設定では、このアプローチが驚くほど失敗することがわかった。
論文参考訳（メタデータ） (2024-04-25T14:24:41Z)
Low-Rank Rescaled Vision Transformer Fine-Tuning: A Residual Design Approach [17.678759882763078]
事前訓練されたビジョントランスフォーマーの微調整は、下流のタスクにモデルを十分にカスタマイズすることを目的としている。事前訓練されたモデルの一般化可能な表現能力を維持することと、タスク固有の特徴を取得することのバランスを取ることは重要な課題である。本稿では,Residual-based Low-Rank Rescaling (RLRR)ファインチューニング戦略を提案する。
論文参考訳（メタデータ） (2024-03-28T00:14:53Z)
Investigating the Emergent Audio Classification Ability of ASR Foundation Models [39.67769732947647]
本稿では,主に音声認識のために訓練された音声認識基礎モデルであるWhisperとMMSが,ゼロショット音声分類を行うことができることを示す。以上の結果から,Whisperは8種類の音声分類データセットに対してゼロショット分類性能を示し,既存のゼロショットベースラインの精度を平均9%向上させることを示した。さらに、モデルサイズによって性能が向上し、ASR基盤モデルがスケールアップされるにつれて、ゼロショット性能が向上する可能性が示唆された。
論文参考訳（メタデータ） (2023-11-15T20:52:56Z)
E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文参考訳（メタデータ） (2023-07-25T19:03:21Z)
Re-Evaluating LiDAR Scene Flow for Autonomous Driving [80.37947791534985]
自己教師型LiDARシーンフローの一般的なベンチマークは、動的動き、非現実的な対応、非現実的なサンプリングパターンの非現実的な速度を持つ。実世界のデータセットのスイート上で,トップメソッドのスイートを評価する。学習に重点を置いているにもかかわらず、ほとんどのパフォーマンス向上は前処理と後処理のステップによって引き起こされる。
論文参考訳（メタデータ） (2023-04-04T22:45:50Z)
GOHSP: A Unified Framework of Graph and Optimization-based Heterogeneous Structured Pruning for Vision Transformer [76.2625311630021]
視覚変換器(ViT)は、様々なコンピュータビジョンタスクにおいて非常に印象的な経験的性能を示している。この問題を緩和するために、構造化プルーニングはモデルサイズを圧縮し、実用的な効率を実現するための有望な解決策である。グラフと最適化に基づく構造的プルーニング(Structured Pruning)を統合化したフレームワークであるGOHSPを提案する。
論文参考訳（メタデータ） (2023-01-13T00:40:24Z)
SiRi: A Simple Selective Retraining Mechanism for Transformer-based Visual Grounding [131.0977050185209]
Selective Retraining (SiRi)は3つの人気のあるベンチマークにおいて、従来のアプローチよりも大幅に優れている。 SiRiは、限られたトレーニングデータでも驚くほど優れている。また,その妥当性を検証するために,トランスフォーマーベース視覚接地モデルや他の視覚言語タスクにも拡張する。
論文参考訳（メタデータ） (2022-07-27T07:01:01Z)
Sharpness-Aware Minimization for Efficiently Improving Generalization [36.87818971067698]
本稿では,損失値と損失シャープネスを同時に最小化する新しい効果的な手法を提案する。シャープネス・アウェアの最小化(SAM)は、一様損失の少ない地区にあるパラメータを求める。 SAMは様々なベンチマークデータセットのモデル一般化を改善することを示す実験結果を示す。
論文参考訳（メタデータ） (2020-10-03T19:02:10Z)
Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文参考訳（メタデータ） (2020-08-07T11:02:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。