論文の概要: SingSong: Generating musical accompaniments from singing
- arxiv url: http://arxiv.org/abs/2301.12662v1
- Date: Mon, 30 Jan 2023 04:53:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 15:46:48.220402
- Title: SingSong: Generating musical accompaniments from singing
- Title(参考訳): SingSong:歌から伴奏を生成する
- Authors: Chris Donahue, Antoine Caillon, Adam Roberts, Ethan Manilow, Philippe
Esling, Andrea Agostinelli, Mauro Verzetti, Ian Simon, Olivier Pietquin, Neil
Zeghidour, Jesse Engel
- Abstract要約: 入力ボーカルに付随する楽器音楽を生成するシステムであるSingSongについて述べる。
同じ音声入力と比較して、リスナーはSingSongが生成したインストゥルメンタルに対して重要な嗜好を表現した。
- 参考スコア(独自算出の注目度): 35.819589427197464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present SingSong, a system that generates instrumental music to accompany
input vocals, potentially offering musicians and non-musicians alike an
intuitive new way to create music featuring their own voice. To accomplish
this, we build on recent developments in musical source separation and audio
generation. Specifically, we apply a state-of-the-art source separation
algorithm to a large corpus of music audio to produce aligned pairs of vocals
and instrumental sources. Then, we adapt AudioLM (Borsos et al., 2022) -- a
state-of-the-art approach for unconditional audio generation -- to be suitable
for conditional "audio-to-audio" generation tasks, and train it on the
source-separated (vocal, instrumental) pairs. In a pairwise comparison with the
same vocal inputs, listeners expressed a significant preference for
instrumentals generated by SingSong compared to those from a strong retrieval
baseline.
Sound examples at https://g.co/magenta/singsong
- Abstract(参考訳): 入力ボーカルを伴って楽器音楽を生成するシステムであるSingSongについて述べる。
そこで本稿では,音源分離と音声生成の最近の展開について述べる。
具体的には,音楽音声のコーパスに最先端の音源分離アルゴリズムを適用し,音声とインストゥルメンタル音源の整合ペアを生成する。
次に,無条件オーディオ生成のための最先端のアプローチであるaudiolm(borsos et al., 2022)を,条件付き"audio-to-audio"生成タスクに適合させ,ソース分離された(音声,楽器)ペアでトレーニングする。
同じ音声入力と比較して、リスナーはSingSongが生成した楽器を、強い検索ベースラインの楽器に比べてかなり好んで表現した。
https://g.co/magenta/singsongの例
関連論文リスト
- Constructing a Singing Style Caption Dataset [12.515874333424929]
多様な属性セットを持つ音声テキストペアデータセットであるS2Capを紹介する。
S2Capは、テキストプロンプトと、幅広い声と音楽の属性を持つオーディオサンプルのペアで構成されている。
本稿では,事前学習したオーディオエンコーダの埋め込み空間の同期化に正対類似性学習を利用するCRESCENDOという新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2024-09-15T21:19:24Z) - SongCreator: Lyrics-based Universal Song Generation [53.248473603201916]
SongCreatorは、声楽と伴奏の両方で曲を生成するという課題に取り組むために設計された曲生成システムである。
モデルには2つの新しいデザインがある: ボーカルの情報と伴奏を収録するための巧妙に設計された二重系列言語モデル (M) と、DSLMのための一連の注意マスク戦略である。
実験では,8つのタスクすべてに対して,最先端ないし競争的なパフォーマンスを実現することにより,SongCreatorの有効性を示す。
論文 参考訳(メタデータ) (2024-09-09T19:37:07Z) - Text-to-Song: Towards Controllable Music Generation Incorporating Vocals and Accompaniment [56.019288564115136]
ボーカルと伴奏の両方を組み込んだテキスト・ツー・サング・シンセサイザーという新しいタスクを提案する。
我々は,歌唱音声合成 (SVS) とV2A合成 (V2A) を組み合わせた2段階音声合成法であるメロディストを開発した。
評価結果は,メロディストが同等の品質とスタイルの整合性で楽曲を合成できることを実証した。
論文 参考訳(メタデータ) (2024-04-14T18:00:05Z) - Singer Identity Representation Learning using Self-Supervised Techniques [0.0]
歌唱関連タスクに適した表現を抽出するシンガーアイデンティティエンコーダを訓練するためのフレームワークを提案する。
我々は,孤立した音声トラックの集合体上で,異なる自己教師付き学習手法を探索する。
歌手の類似度と識別タスクにおける表現の質を評価する。
論文 参考訳(メタデータ) (2024-01-10T10:41:38Z) - AudioLM: a Language Modeling Approach to Audio Generation [59.19364975706805]
本稿では,長期的整合性を有する高品質オーディオ生成フレームワークであるAudioLMを紹介する。
本稿では,既存の音声トークンが,再建品質と長期構造との間に異なるトレードオフをもたらすことを示す。
我々は,コヒーレントピアノ音楽の継続を生成することによって,我々のアプローチが音声を超えてどのように拡張されるかを実証する。
論文 参考訳(メタデータ) (2022-09-07T13:40:08Z) - Learning the Beauty in Songs: Neural Singing Voice Beautifier [69.21263011242907]
我々は、新しいタスク、歌声美化(SVB)に興味を持っている。
アマチュア歌手の歌声を考えると、SVBは内容と声の音色を保ちながら、声のイントネーションと声のトーンを改善することを目的としている。
SVBタスクを解く最初の生成モデルであるNSVB(Neural Singing Voice Beautifier)を導入する。
論文 参考訳(メタデータ) (2022-02-27T03:10:12Z) - A cappella: Audio-visual Singing Voice Separation [4.6453787256723365]
マルチモーダルの観点からシングルチャンネル歌唱音声分離問題について検討する。
今回紹介するAcappellaは、YouTubeからソースされたカペラソロの歌唱ビデオの46時間に及ぶデータセットだ。
本稿では,最先端の歌唱音声分離結果を実現する音声視覚畳み込みニューラルネットワークY-Netを提案する。
論文 参考訳(メタデータ) (2021-04-20T13:17:06Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Addressing the confounds of accompaniments in singer identification [29.949390919663596]
我々は、ソース分離における最先端のパフォーマンスを備えたオープンソースツールであるopen-Unmixを用いて、ボーカルと楽器のトラックを分離する。
次に,歌手識別モデルを学習する2つの方法について検討する。
論文 参考訳(メタデータ) (2020-02-17T07:49:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。