Fugu-MT 論文翻訳(概要): SingSong: Generating musical accompaniments from singing

論文の概要: SingSong: Generating musical accompaniments from singing

arxiv url: http://arxiv.org/abs/2301.12662v1
Date: Mon, 30 Jan 2023 04:53:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-31 15:46:48.220402
Title: SingSong: Generating musical accompaniments from singing
Title（参考訳）: SingSong:歌から伴奏を生成する
Authors: Chris Donahue, Antoine Caillon, Adam Roberts, Ethan Manilow, Philippe Esling, Andrea Agostinelli, Mauro Verzetti, Ian Simon, Olivier Pietquin, Neil Zeghidour, Jesse Engel
Abstract要約: 入力ボーカルに付随する楽器音楽を生成するシステムであるSingSongについて述べる。同じ音声入力と比較して、リスナーはSingSongが生成したインストゥルメンタルに対して重要な嗜好を表現した。
参考スコア（独自算出の注目度）: 35.819589427197464
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present SingSong, a system that generates instrumental music to accompany input vocals, potentially offering musicians and non-musicians alike an intuitive new way to create music featuring their own voice. To accomplish this, we build on recent developments in musical source separation and audio generation. Specifically, we apply a state-of-the-art source separation algorithm to a large corpus of music audio to produce aligned pairs of vocals and instrumental sources. Then, we adapt AudioLM (Borsos et al., 2022) -- a state-of-the-art approach for unconditional audio generation -- to be suitable for conditional "audio-to-audio" generation tasks, and train it on the source-separated (vocal, instrumental) pairs. In a pairwise comparison with the same vocal inputs, listeners expressed a significant preference for instrumentals generated by SingSong compared to those from a strong retrieval baseline. Sound examples at https://g.co/magenta/singsong
Abstract（参考訳）: 入力ボーカルを伴って楽器音楽を生成するシステムであるSingSongについて述べる。そこで本稿では,音源分離と音声生成の最近の展開について述べる。具体的には,音楽音声のコーパスに最先端の音源分離アルゴリズムを適用し,音声とインストゥルメンタル音源の整合ペアを生成する。次に,無条件オーディオ生成のための最先端のアプローチであるaudiolm(borsos et al., 2022)を,条件付き"audio-to-audio"生成タスクに適合させ,ソース分離された(音声,楽器)ペアでトレーニングする。同じ音声入力と比較して、リスナーはSingSongが生成した楽器を、強い検索ベースラインの楽器に比べてかなり好んで表現した。 https://g.co/magenta/singsongの例

関連論文リスト

Constructing a Singing Style Caption Dataset [12.515874333424929]
多様な属性セットを持つ音声テキストペアデータセットであるS2Capを紹介する。 S2Capは、テキストプロンプトと、幅広い声と音楽の属性を持つオーディオサンプルのペアで構成されている。本稿では,事前学習したオーディオエンコーダの埋め込み空間の同期化に正対類似性学習を利用するCRESCENDOという新しいメカニズムを提案する。
論文参考訳（メタデータ） (2024-09-15T21:19:24Z)
SongCreator: Lyrics-based Universal Song Generation [53.248473603201916]
SongCreatorは、声楽と伴奏の両方で曲を生成するという課題に取り組むために設計された曲生成システムである。モデルには2つの新しいデザインがある: ボーカルの情報と伴奏を収録するための巧妙に設計された二重系列言語モデル (M) と、DSLMのための一連の注意マスク戦略である。実験では,8つのタスクすべてに対して,最先端ないし競争的なパフォーマンスを実現することにより,SongCreatorの有効性を示す。
論文参考訳（メタデータ） (2024-09-09T19:37:07Z)
Text-to-Song: Towards Controllable Music Generation Incorporating Vocals and Accompaniment [56.019288564115136]
ボーカルと伴奏の両方を組み込んだテキスト・ツー・サング・シンセサイザーという新しいタスクを提案する。我々は,歌唱音声合成 (SVS) とV2A合成 (V2A) を組み合わせた2段階音声合成法であるメロディストを開発した。評価結果は,メロディストが同等の品質とスタイルの整合性で楽曲を合成できることを実証した。
論文参考訳（メタデータ） (2024-04-14T18:00:05Z)
Singer Identity Representation Learning using Self-Supervised Techniques [0.0]
歌唱関連タスクに適した表現を抽出するシンガーアイデンティティエンコーダを訓練するためのフレームワークを提案する。我々は,孤立した音声トラックの集合体上で,異なる自己教師付き学習手法を探索する。歌手の類似度と識別タスクにおける表現の質を評価する。
論文参考訳（メタデータ） (2024-01-10T10:41:38Z)
AudioLM: a Language Modeling Approach to Audio Generation [59.19364975706805]
本稿では,長期的整合性を有する高品質オーディオ生成フレームワークであるAudioLMを紹介する。本稿では,既存の音声トークンが,再建品質と長期構造との間に異なるトレードオフをもたらすことを示す。我々は,コヒーレントピアノ音楽の継続を生成することによって,我々のアプローチが音声を超えてどのように拡張されるかを実証する。
論文参考訳（メタデータ） (2022-09-07T13:40:08Z)
Learning the Beauty in Songs: Neural Singing Voice Beautifier [69.21263011242907]
我々は、新しいタスク、歌声美化(SVB)に興味を持っている。アマチュア歌手の歌声を考えると、SVBは内容と声の音色を保ちながら、声のイントネーションと声のトーンを改善することを目的としている。 SVBタスクを解く最初の生成モデルであるNSVB(Neural Singing Voice Beautifier)を導入する。
論文参考訳（メタデータ） (2022-02-27T03:10:12Z)
Audiovisual Singing Voice Separation [25.862550744570324]
ビデオモデルは口の動きを入力し、それをオーディオベースの分離フレームワークの機能埋め込みに融合する。トレーニングと評価のための2つのオーディオヴィジュアルな歌唱パフォーマンスデータセットを作成します。提案手法は、ほとんどのテスト記録における分離品質の観点から、音声ベースの手法よりも優れる。
論文参考訳（メタデータ） (2021-07-01T06:04:53Z)
A cappella: Audio-visual Singing Voice Separation [4.6453787256723365]
マルチモーダルの観点からシングルチャンネル歌唱音声分離問題について検討する。今回紹介するAcappellaは、YouTubeからソースされたカペラソロの歌唱ビデオの46時間に及ぶデータセットだ。本稿では,最先端の歌唱音声分離結果を実現する音声視覚畳み込みニューラルネットワークY-Netを提案する。
論文参考訳（メタデータ） (2021-04-20T13:17:06Z)
Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文参考訳（メタデータ） (2020-08-06T18:29:11Z)
Addressing the confounds of accompaniments in singer identification [29.949390919663596]
我々は、ソース分離における最先端のパフォーマンスを備えたオープンソースツールであるopen-Unmixを用いて、ボーカルと楽器のトラックを分離する。次に,歌手識別モデルを学習する2つの方法について検討する。
論文参考訳（メタデータ） (2020-02-17T07:49:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。