論文の概要: Tutti: Expressive Multi-Singer Synthesis via Structure-Level Timbre Control and Vocal Texture Modeling
- arxiv url: http://arxiv.org/abs/2602.08233v1
- Date: Mon, 09 Feb 2026 03:15:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.046
- Title: Tutti: Expressive Multi-Singer Synthesis via Structure-Level Timbre Control and Vocal Texture Modeling
- Title(参考訳): Tutti: 構造レベル音色制御と音声テクスチャモデリングによる表現型マルチシンガー合成
- Authors: Jiatao Chen, Xing Tang, Xiaoyue Duan, Yutang Feng, Jinchao Zhang, Jie Zhou,
- Abstract要約: Tuttiは構造化マルチシンガー生成用に設計された統一フレームワークである。
本研究では,音楽構造で進化するフレキシブルシンガースケジューリングを実現するための構造対応シンガープレットを提案する。
また,暗黙の音響的テクスチャを捉えるために,条件誘導型VAEによる補完的テクスチャ学習を提案する。
- 参考スコア(独自算出の注目度): 22.71920096272071
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While existing Singing Voice Synthesis systems achieve high-fidelity solo performances, they are constrained by global timbre control, failing to address dynamic multi-singer arrangement and vocal texture within a single song. To address this, we propose Tutti, a unified framework designed for structured multi-singer generation. Specifically, we introduce a Structure-Aware Singer Prompt to enable flexible singer scheduling evolving with musical structure, and propose Complementary Texture Learning via Condition-Guided VAE to capture implicit acoustic textures (e.g., spatial reverberation and spectral fusion) that are complementary to explicit controls. Experiments demonstrate that Tutti excels in precise multi-singer scheduling and significantly enhances the acoustic realism of choral generation, offering a novel paradigm for complex multi-singer arrangement. Audio samples are available at https://annoauth123-ctrl.github.io/Tutii_Demo/.
- Abstract(参考訳): 既存の歌唱音声合成システムは高忠実なソロ演奏を実現するが、グローバルな音色制御によって制約され、シングルソング内の動的マルチシンガーアレンジメントと発声テクスチャに対処することができない。
これを解決するために,構造化マルチシンガー生成用に設計された統合フレームワークTuttiを提案する。
具体的には、音楽構造とともに進化するフレキシブルシンガーのスケジューリングを可能にする構造対応シンガープレットを導入し、明示的な制御を補完する暗黙的な音響テクスチャ(例えば、空間残響やスペクトル融合)をキャプチャするための条件誘導型VAEによる補完的テクスチャ学習を提案する。
実験により、トゥッティは正確なマルチシンガースケジューリングに優れ、コーラル生成の音響リアリズムを著しく向上させ、複雑なマルチシンガーアレンジメントのための新しいパラダイムを提供することが示された。
オーディオサンプルはhttps://annoauth123-ctrl.github.io/Tutii_Demo/で公開されている。
関連論文リスト
- YingMusic-Singer: Zero-shot Singing Voice Synthesis and Editing with Annotation-free Melody Guidance [16.462715982402884]
SVS(Singing Voice Synthesis)は、音素レベルの正確なアライメントに強く依存しているため、実際の展開には制約が残っている。
メロディに追従した任意の歌詞を合成できるメロディ駆動のSVSフレームワークを提案する。
提案手法は,Diffusion Transformer (DiT) アーキテクチャ上に構築され,メロディ抽出モジュールに拡張されている。
論文 参考訳(メタデータ) (2025-12-04T13:25:33Z) - CoMelSinger: Discrete Token-Based Zero-Shot Singing Synthesis With Structured Melody Control and Guidance [6.797243060589937]
歌声合成(SVS)は、歌詞やピッチシーケンスなどの構造化された音楽入力から、表現力のある音声演奏を生成することを目的としている。
本稿では,離散音色モデリングパラダイム内でのメロディ構造制御を実現するフレームワークであるCoMelSingerを提案する。
我々は,CoMelSingerが,競争ベースラインよりもピッチ精度,一貫性,ゼロショット転送性において顕著な改善を実現していることを示す。
論文 参考訳(メタデータ) (2025-09-24T08:34:19Z) - SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation [75.86473375730392]
SongGenは、コントロール可能な曲を生成するための、完全なオープンソースでシングルステージの自動回帰トランスフォーマーである。
音声と伴奏の混合を生成する混合モードと、それらを別々に合成するデュアルトラックモードの2つの出力モードをサポートする。
コミュニティの関与と今後の研究を促進するため、私たちは、モデルの重み付け、トレーニングコード、注釈付きデータ、前処理パイプラインをリリースします。
論文 参考訳(メタデータ) (2025-02-18T18:52:21Z) - Combining audio control and style transfer using latent diffusion [1.705371629600151]
本稿では,単一モデル内での明示的な制御とスタイル転送を統一することを目的とする。
我々のモデルは、明示的な制御または他のオーディオ例を通して構造を指定しながら、音色ターゲットにマッチする音声を生成することができる。
本手法は,異なるジャンルのターゲットオーディオのスタイルにリズミカル・メロディックなコンテンツを転送することで,完全な楽曲のカバーバージョンを生成することができることを示す。
論文 参考訳(メタデータ) (2024-07-31T23:27:27Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。
音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。
オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文 参考訳(メタデータ) (2020-07-13T12:35:45Z) - Adversarially Trained Multi-Singer Sequence-To-Sequence Singing
Synthesizer [11.598416444452619]
我々は、異なる歌手の既存の歌唱データを全て活用するマルチシンガー・フレームワークを設計する。
我々は、エンコーダ出力が歌手依存を減らすために、シンガー分類の逆タスクを組み込んだ。
提案するシンセサイザーはベースラインよりも高品質な歌唱音声を生成することができる。
論文 参考訳(メタデータ) (2020-06-18T07:20:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。