Fugu-MT 論文翻訳(概要): S2Cap: A Benchmark and a Baseline for Singing Style Captioning

論文の概要: S2Cap: A Benchmark and a Baseline for Singing Style Captioning

arxiv url: http://arxiv.org/abs/2409.09866v2
Date: Sat, 15 Feb 2025 15:33:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:44.357086
Title: S2Cap: A Benchmark and a Baseline for Singing Style Captioning
Title（参考訳）: S2Cap: Singing Style Captioningのベンチマークとベースライン
Authors: Hyunjong Ok, Jaeho Lee,
Abstract要約: 本稿では,歌唱音声データセットであるS2Capについて紹介する。歌唱スタイルキャプションのための,シンプルで効果的なベースラインアルゴリズムを開発した。その単純さにもかかわらず、提案手法は最先端のベースラインより優れている。
参考スコア（独自算出の注目度）: 12.515874333424929
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Singing voices contain much richer information than common voices, such as diverse vocal and acoustic characteristics. However, existing open-source audio-text datasets for singing voices capture only a limited set of attributes and lacks acoustic features, leading to limited utility towards downstream tasks, such as style captioning. To fill this gap, we formally consider the task of singing style captioning and introduce S2Cap, a singing voice dataset with comprehensive descriptions of diverse vocal, acoustic and demographic attributes. Based on this dataset, we develop a simple yet effective baseline algorithm for the singing style captioning. The algorithm utilizes two novel technical components: CRESCENDO for mitigating misalignment between pretrained unimodal models, and demixing supervision to regularize the model to focus on the singing voice. Despite its simplicity, the proposed method outperforms state-of-the-art baselines.
Abstract（参考訳）: 歌声は、様々な声質や音響特性など、一般的な声よりもはるかに豊かな情報を含んでいる。しかし、既存の歌唱音声のためのオープンソースの音声テキストデータセットは、限られた属性のみをキャプチャし、音響的特徴を欠いているため、スタイルキャプションのような下流タスクへの限定的なユーティリティがもたらされる。このギャップを埋めるために,歌唱スタイルキャプションのタスクを公式に検討し,多様な声質・音響・人口特性を包括的に記述した歌唱音声データセットであるS2Capを紹介した。このデータセットに基づいて,歌唱スタイルキャプションのための,シンプルながら効果的なベースラインアルゴリズムを開発した。このアルゴリズムは2つの新しい技術要素を利用する: CRESCENDOは事前訓練された単調モデル間の不一致を緩和する。その単純さにもかかわらず、提案手法は最先端のベースラインより優れている。

関連論文リスト

Classifier-Guided Captioning Across Modalities [69.75111271002137]
本稿では,音声キャプションにおける可聴性の獲得など,代替設定のセマンティクスにキャプションネットワークを適用する手法を提案する。本フレームワークは, (i) 言語モデル(LM)を組み込んだ冷凍キャプションシステムと, (ii) キャプションシステムを案内するテキスト分類器の2つの主要コンポーネントから構成される。特に、既存のゼロショット音声キャプションシステムと組み合わせることで、その品質を改善し、ゼロショット音声キャプションにおける最先端の性能を設定する。
論文参考訳（メタデータ） (2025-01-03T18:09:26Z)
TCSinger: Zero-Shot Singing Voice Synthesis with Style Transfer and Multi-Level Style Control [58.96445085236971]
スタイル転送とスタイル制御を備えたゼロショット歌唱音声合成(SVS)は、目に見えない音色とスタイルで高品質な歌唱音声を生成することを目的としている。言語間音声および歌唱スタイル間のスタイル伝達のための,最初のゼロショットSVSモデルであるTCSingerを紹介する。 TCSingerは、品質合成、シンガー類似性、および様々なタスクにおけるスタイル制御性において、全てのベースラインモデルより優れていることを示す。
論文参考訳（メタデータ） (2024-09-24T11:18:09Z)
Text-to-Song: Towards Controllable Music Generation Incorporating Vocals and Accompaniment [56.019288564115136]
ボーカルと伴奏の両方を組み込んだテキスト・ツー・サング・シンセサイザーという新しいタスクを提案する。我々は,歌唱音声合成 (SVS) とV2A合成 (V2A) を組み合わせた2段階音声合成法であるメロディストを開発した。評価結果は,メロディストが同等の品質とスタイルの整合性で楽曲を合成できることを実証した。
論文参考訳（メタデータ） (2024-04-14T18:00:05Z)
Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文参考訳（メタデータ） (2024-03-18T13:39:05Z)
Low-Resource Cross-Domain Singing Voice Synthesis via Reduced Self-Supervised Speech Representations [41.410556997285326]
Karaoker-SSLは、音声合成モデルであり、テキストデータと音声データのみに基づいて訓練されている。ボーコーダも音声データに基づいて訓練されているため、歌唱データをエンドツーエンドで使用しない。
論文参考訳（メタデータ） (2024-02-02T16:06:24Z)
Singer Identity Representation Learning using Self-Supervised Techniques [0.0]
歌唱関連タスクに適した表現を抽出するシンガーアイデンティティエンコーダを訓練するためのフレームワークを提案する。我々は,孤立した音声トラックの集合体上で,異なる自己教師付き学習手法を探索する。歌手の類似度と識別タスクにおける表現の質を評価する。
論文参考訳（メタデータ） (2024-01-10T10:41:38Z)
StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis [63.18764165357298]
ドメイン外歌唱音声合成(SVS)のためのスタイル転送は、目に見えないスタイルで高品質な歌唱音声を生成することに焦点を当てている。 StyleSingerは、ドメイン外参照音声サンプルのゼロショットスタイル転送のための最初の歌声合成モデルである。ゼロショット・スタイル・トランスファーにおける評価は、StyleSingerが基準歌唱音声サンプルの音質と類似性の両方でベースライン・モデルより優れていることを不確実に証明している。
論文参考訳（メタデータ） (2023-12-17T15:26:16Z)
Enhancing the vocal range of single-speaker singing voice synthesis with melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文参考訳（メタデータ） (2023-09-01T06:40:41Z)
Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文参考訳（メタデータ） (2023-05-30T17:59:26Z)
A Melody-Unsupervision Model for Singing Voice Synthesis [9.137554315375919]
トレーニング時間内に時間的アライメントを伴わない音声・歌詞ペアのみを必要とするメロディ・アンスーパービジョンモデルを提案する。提案手法は音声やテキストのラベルで訓練できるが,推測時間で歌唱音声を生成できることを示す。
論文参考訳（メタデータ） (2021-10-13T07:42:35Z)
A cappella: Audio-visual Singing Voice Separation [4.6453787256723365]
マルチモーダルの観点からシングルチャンネル歌唱音声分離問題について検討する。今回紹介するAcappellaは、YouTubeからソースされたカペラソロの歌唱ビデオの46時間に及ぶデータセットだ。本稿では,最先端の歌唱音声分離結果を実現する音声視覚畳み込みニューラルネットワークY-Netを提案する。
論文参考訳（メタデータ） (2021-04-20T13:17:06Z)
DeepSinger: Singing Voice Synthesis with Data Mined From the Web [194.10598657846145]
DeepSinger(ディープシンガー)は、音楽ウェブサイトから抽出された歌唱訓練データを用いて、スクラッチから構築された多言語歌唱音声合成システムである。 DeepSingerを3つの言語で89人の歌手から約92時間のデータからなるマイニングされた歌唱データセットで評価した。
論文参考訳（メタデータ） (2020-07-09T07:00:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。