論文の概要: Learning Fine-Grained Controllability on Speech Generation via Efficient Fine-Tuning
- arxiv url: http://arxiv.org/abs/2406.06251v1
- Date: Mon, 10 Jun 2024 13:31:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 13:58:00.136664
- Title: Learning Fine-Grained Controllability on Speech Generation via Efficient Fine-Tuning
- Title(参考訳): 効率的な微調整による音声生成における微粒化制御の学習
- Authors: Chung-Ming Chien, Andros Tjandra, Apoorv Vyas, Matt Le, Bowen Shi, Wei-Ning Hsu,
- Abstract要約: Voicebox Adapterは、微粒な条件を事前訓練されたVoicebox音声生成モデルに統合する新しいアプローチである。
実験の結果, バイアス調整構成の LoRA が最高の性能を示すことがわかった。
- 参考スコア(独自算出の注目度): 43.43337861152684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the scale of generative models continues to grow, efficient reuse and adaptation of pre-trained models have become crucial considerations. In this work, we propose Voicebox Adapter, a novel approach that integrates fine-grained conditions into a pre-trained Voicebox speech generation model using a cross-attention module. To ensure a smooth integration of newly added modules with pre-trained ones, we explore various efficient fine-tuning approaches. Our experiment shows that the LoRA with bias-tuning configuration yields the best performance, enhancing controllability without compromising speech quality. Across three fine-grained conditional generation tasks, we demonstrate the effectiveness and resource efficiency of Voicebox Adapter. Follow-up experiments further highlight the robustness of Voicebox Adapter across diverse data setups.
- Abstract(参考訳): 生成モデルの規模が拡大するにつれて、事前訓練されたモデルの効率的な再利用と適応が重要な考慮事項となっている。
そこで本研究では,音声ボックス・アダプタ(Voicebox Adapter)を提案する。これは,微粒な条件を,クロスアテンション・モジュールを用いて事前学習した音声ボックス音声生成モデルに統合する手法である。
新たに追加されたモジュールと事前訓練したモジュールのスムーズな統合を保証するため、様々な効率的な微調整アプローチを探索する。
音声品質を損なうことなく、制御性を向上させるため、バイアス調整構成のLoRAが最高の性能を発揮することを示す。
3つのきめ細かい条件生成タスクにまたがって,Voicebox Adapterの有効性と資源効率を実証する。
フォローアップ実験は、さまざまなデータ設定におけるVoicebox Adapterの堅牢性をさらに強調する。
関連論文リスト
- Pre-training Feature Guided Diffusion Model for Speech Enhancement [37.88469730135598]
音声強調は、雑音環境下での音声の明瞭さと明瞭さを著しく向上させる。
本稿では,効率的な音声強調に適した事前学習機能誘導拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-06-11T18:22:59Z) - Efficient Adapter Tuning of Pre-trained Speech Models for Automatic
Speaker Verification [38.20393847192532]
自己教師型音声モデルは、下流の様々な音声タスクにおいて印象的な性能を示した。
大量の計算とストレージオーバーヘッドのため、微調整は事実上不可能になる。
話者検証タスクに自己教師付き音声モデルを適用するための効果的なアダプタフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-01T05:32:14Z) - DITTO: Diffusion Inference-Time T-Optimization for Music Generation [49.90109850026932]
Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。
我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:10:10Z) - Class Incremental Learning with Pre-trained Vision-Language Models [59.15538370859431]
本稿では、事前学習された視覚言語モデル(例えば、CLIP)を利用して、さらなる適応を可能にするアプローチを提案する。
いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。
論文 参考訳(メタデータ) (2023-10-31T10:45:03Z) - Audio Contrastive based Fine-tuning [21.145936249583446]
本稿では,音声コントラストに基づくファインチューニング(AudioConFit)を,頑健な汎用性を特徴とする効率的なアプローチとして紹介する。
様々な音声分類タスクに関する実証実験により,提案手法の有効性とロバスト性を実証した。
論文 参考訳(メタデータ) (2023-09-21T08:59:13Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z) - Representative Subset Selection for Efficient Fine-Tuning in
Self-Supervised Speech Recognition [6.450618373898492]
ASRのための自己教師型音声モデルにおいて、効率的な微調整を行うために最適なデータのサブセットを同定する作業を検討する。
自己教師型ASRにおける代表サブセット選択のためのCOWERAGEアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-18T10:12:24Z) - Zero-Shot Personalized Speech Enhancement through Speaker-Informed Model
Selection [25.05285328404576]
特定のテストタイムスピーカーに対する音声の最適化は、パフォーマンスを改善し、ランタイムの複雑さを低減する。
本稿では,各専門モジュールが個別の学習セット話者の分割から雑音発声を識別するアンサンブルモデルを提案する。
トレーニングセットのスピーカーを非オーバーラップ意味的に類似したグループにグルーピングすることは、非自明で不明確です。
論文 参考訳(メタデータ) (2021-05-08T00:15:57Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。