Fugu-MT 論文翻訳(概要): Tutti: Expressive Multi-Singer Synthesis via Structure-Level Timbre Control and Vocal Texture Modeling

論文の概要: Tutti: Expressive Multi-Singer Synthesis via Structure-Level Timbre Control and Vocal Texture Modeling

arxiv url: http://arxiv.org/abs/2602.08233v1
Date: Mon, 09 Feb 2026 03:15:44 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-10 20:26:25.046
Title: Tutti: Expressive Multi-Singer Synthesis via Structure-Level Timbre Control and Vocal Texture Modeling
Title（参考訳）: Tutti: 構造レベル音色制御と音声テクスチャモデリングによる表現型マルチシンガー合成
Authors: Jiatao Chen, Xing Tang, Xiaoyue Duan, Yutang Feng, Jinchao Zhang, Jie Zhou,
Abstract要約: Tuttiは構造化マルチシンガー生成用に設計された統一フレームワークである。本研究では,音楽構造で進化するフレキシブルシンガースケジューリングを実現するための構造対応シンガープレットを提案する。また,暗黙の音響的テクスチャを捉えるために,条件誘導型VAEによる補完的テクスチャ学習を提案する。
参考スコア（独自算出の注目度）: 22.71920096272071
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While existing Singing Voice Synthesis systems achieve high-fidelity solo performances, they are constrained by global timbre control, failing to address dynamic multi-singer arrangement and vocal texture within a single song. To address this, we propose Tutti, a unified framework designed for structured multi-singer generation. Specifically, we introduce a Structure-Aware Singer Prompt to enable flexible singer scheduling evolving with musical structure, and propose Complementary Texture Learning via Condition-Guided VAE to capture implicit acoustic textures (e.g., spatial reverberation and spectral fusion) that are complementary to explicit controls. Experiments demonstrate that Tutti excels in precise multi-singer scheduling and significantly enhances the acoustic realism of choral generation, offering a novel paradigm for complex multi-singer arrangement. Audio samples are available at https://annoauth123-ctrl.github.io/Tutii_Demo/.
Abstract（参考訳）: 既存の歌唱音声合成システムは高忠実なソロ演奏を実現するが、グローバルな音色制御によって制約され、シングルソング内の動的マルチシンガーアレンジメントと発声テクスチャに対処することができない。これを解決するために,構造化マルチシンガー生成用に設計された統合フレームワークTuttiを提案する。具体的には、音楽構造とともに進化するフレキシブルシンガーのスケジューリングを可能にする構造対応シンガープレットを導入し、明示的な制御を補完する暗黙的な音響テクスチャ(例えば、空間残響やスペクトル融合)をキャプチャするための条件誘導型VAEによる補完的テクスチャ学習を提案する。実験により、トゥッティは正確なマルチシンガースケジューリングに優れ、コーラル生成の音響リアリズムを著しく向上させ、複雑なマルチシンガーアレンジメントのための新しいパラダイムを提供することが示された。オーディオサンプルはhttps://annoauth123-ctrl.github.io/Tutii_Demo/で公開されている。

関連論文リスト

SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation [75.86473375730392]
SongGenは、コントロール可能な曲を生成するための、完全なオープンソースでシングルステージの自動回帰トランスフォーマーである。音声と伴奏の混合を生成する混合モードと、それらを別々に合成するデュアルトラックモードの2つの出力モードをサポートする。コミュニティの関与と今後の研究を促進するため、私たちは、モデルの重み付け、トレーニングコード、注釈付きデータ、前処理パイプラインをリリースします。
論文参考訳（メタデータ） (2025-02-18T18:52:21Z)
Combining audio control and style transfer using latent diffusion [1.705371629600151]
本稿では,単一モデル内での明示的な制御とスタイル転送を統一することを目的とする。我々のモデルは、明示的な制御または他のオーディオ例を通して構造を指定しながら、音色ターゲットにマッチする音声を生成することができる。本手法は,異なるジャンルのターゲットオーディオのスタイルにリズミカル・メロディックなコンテンツを転送することで,完全な楽曲のカバーバージョンを生成することができることを示す。
論文参考訳（メタデータ） (2024-07-31T23:27:27Z)
Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文参考訳（メタデータ） (2024-03-18T13:39:05Z)
DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文参考訳（メタデータ） (2021-05-06T05:21:42Z)
Adversarially Trained Multi-Singer Sequence-To-Sequence Singing Synthesizer [11.598416444452619]
我々は、異なる歌手の既存の歌唱データを全て活用するマルチシンガー・フレームワークを設計する。我々は、エンコーダ出力が歌手依存を減らすために、シンガー分類の逆タスクを組み込んだ。提案するシンセサイザーはベースラインよりも高品質な歌唱音声を生成することができる。
論文参考訳（メタデータ） (2020-06-18T07:20:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。