論文の概要: Generative Multi-modal Feedback for Singing Voice Synthesis Evaluation
- arxiv url: http://arxiv.org/abs/2512.02523v1
- Date: Tue, 02 Dec 2025 08:32:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.786654
- Title: Generative Multi-modal Feedback for Singing Voice Synthesis Evaluation
- Title(参考訳): 歌声合成評価のための生成的マルチモーダルフィードバック
- Authors: Xueyan Li, Yuxin Wang, Mengjie Jiang, Qingzi Zhu, Jiang Zhang, Zoey Kim, Yazhe Niu,
- Abstract要約: 歌声合成評価のための多次元言語と音声フィードバックを提供する生成的フィードバックフレームワークを提案する。
提案手法は, メロディ, コンテンツ, 聴覚品質など, テキストや音声の批判的側面を生成するために, 音声モデルを活用する。
このフレームワークは、生成モデルの改善を導くのに適した音楽的正確で解釈可能な評価を生成する。
- 参考スコア(独自算出の注目度): 8.659397003532488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Singing voice synthesis (SVS) has advanced significantly, enabling models to generate vocals with accurate pitch and consistent style. As these capabilities improve, the need for reliable evaluation and optimization becomes increasingly critical. However, current methods like reward systems often rely on single numerical scores, struggle to capture various dimensions such as phrasing or expressiveness, and require costly annotations, limiting interpretability and generalization. To address these issues, we propose a generative feedback (i.e., reward model) framework that provides multi-dimensional language and audio feedback for SVS assessment. Our approach leverages an audio-language model to generate text and audio critiques-covering aspects such as melody, content, and auditory quality. The model is fine-tuned on a hybrid dataset combining human music reactions and synthetic critiques from a MLLMs, enhancing diversity and linguistic richness. Quantitative experiments validate the effectiveness of the proposed dataset and training strategy, demonstrating that the framework produces musically accurate and interpretable evaluations suitable for guiding generative model improvement. The code is at [https://github.com/opendilab/VocalCritic](https://github.com/opendilab/VocalCritic)
- Abstract(参考訳): 歌声合成(SVS)は大幅に進歩し、モデルが正確なピッチと一貫したスタイルでボーカルを生成できるようになった。
これらの能力が向上するにつれて、信頼性の高い評価と最適化の必要性がますます重要になっている。
しかしながら、報酬システムのような現在の手法は、しばしば単一の数値スコアに依存し、言い換えや表現性などの様々な次元を捉えるのに苦労し、コストのかかるアノテーションを必要とし、解釈可能性や一般化を制限する。
これらの課題に対処するため,SVS評価のための多次元言語および音声フィードバックを提供する生成的フィードバック(報奨モデル)フレームワークを提案する。
提案手法は, メロディ, コンテンツ, 聴覚品質など, テキストや音声の批判的側面を生成するために, 音声モデルを活用する。
このモデルは、人間の音楽反応とMLLMからの合成批評を組み合わせたハイブリッドデータセットに基づいて微調整され、多様性と言語的豊かさが向上する。
定量的実験により,提案手法の有効性を検証し,生成モデルの改善を導くのに適した,音楽的に正確かつ解釈可能な評価結果が得られた。
コードは[https://github.com/opendilab/VocalCritic](https://github.com/opendilab/VocalCritic]にある。
関連論文リスト
- LAPS-Diff: A Diffusion-Based Framework for Singing Voice Synthesis With Language Aware Prosody-Style Guided Learning [4.573044937555209]
LAPS-Diffは,言語認識の埋め込みと統合された拡散モデルであり,音声スタイルの指導型学習機構である。
我々はHindi SVSデータセットをキュレートし、事前訓練された言語モデルを利用して、リッチな歌詞表現のための単語と電話レベルの埋め込みを抽出する。
LAPS-Diffは,制約付きデータセットに対するSOTAモデルと比較して,生成したサンプルの品質を著しく向上させることを示した。
論文 参考訳(メタデータ) (2025-07-07T13:09:36Z) - SmoothSinger: A Conditional Diffusion Model for Singing Voice Synthesis with Multi-Resolution Architecture [3.7937714754535503]
SmoothSingerは高品質で自然な歌声を合成するための条件拡散モデルである。
低品質の合成オーディオを統一されたフレームワークで直接洗練し、2段階のパイプラインに関連する劣化を緩和する。
大規模な中国語歌唱コーパスであるOpencpopデータセットの実験は、SmoothSingerが最先端の結果を達成することを示した。
論文 参考訳(メタデータ) (2025-06-26T17:07:45Z) - ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [47.14083940177122]
ThinkSoundは、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。
提案手法は,3つの相補的な段階 – セマンティック・コヒーレント,インタラクティブなオブジェクト中心の改良,ターゲット編集 – に分解する。
実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-26T16:32:06Z) - Meta Audiobox Aesthetics: Unified Automatic Quality Assessment for Speech, Music, and Sound [46.7144966835279]
本稿では,人間の介入なしに審美を予測できる自動システムの必要性に対処する。
人間の聴取視点を4つの異なる軸に分解する新しいガイドラインを提案する。
我々は、音声品質のより微妙な評価を提供する、ノン参照、イテムごとの予測モデルを開発し、訓練する。
論文 参考訳(メタデータ) (2025-02-07T18:15:57Z) - Challenge on Sound Scene Synthesis: Evaluating Text-to-Audio Generation [8.170174172545831]
本稿では,2024年における音響シーン・イベントの検出・分類の一環として,音シーン合成の課題に対処する。
本稿では,Fr'echet Audio Distanceと知覚的アセスメントを組み合わせた評価手法を提案する。
論文 参考訳(メタデータ) (2024-10-23T06:35:41Z) - StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis [63.18764165357298]
ドメイン外歌唱音声合成(SVS)のためのスタイル転送は、目に見えないスタイルで高品質な歌唱音声を生成することに焦点を当てている。
StyleSingerは、ドメイン外参照音声サンプルのゼロショットスタイル転送のための最初の歌声合成モデルである。
ゼロショット・スタイル・トランスファーにおける評価は、StyleSingerが基準歌唱音声サンプルの音質と類似性の両方でベースライン・モデルより優れていることを不確実に証明している。
論文 参考訳(メタデータ) (2023-12-17T15:26:16Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。