Fugu-MT 論文翻訳(概要): A Unified Model for Zero-shot Music Source Separation, Transcription and Synthesis

論文の概要: A Unified Model for Zero-shot Music Source Separation, Transcription and Synthesis

arxiv url: http://arxiv.org/abs/2108.03456v1
Date: Sat, 7 Aug 2021 14:28:21 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-10 15:06:02.872270
Title: A Unified Model for Zero-shot Music Source Separation, Transcription and Synthesis
Title（参考訳）: ゼロショット音源分離・転写・合成のための統一モデル
Authors: Liwei Lin, Qiuqiang Kong, Junyan Jiang and Gus Xia
Abstract要約: 1)混合音源から個々の音源をテキスト化する,2)各音源をMIDI音符に書き起こす,3)分離音源の音色に基づいて新曲を合成する,という3つのタスクの統一モデルを提案する。このモデルは、人間が音楽を聴くとき、私たちの心は異なる楽器の音を分離できるだけでなく、スコアや音色といったハイレベルな表現も認識できるという事実にインスピレーションを受けています。
参考スコア（独自算出の注目度）: 13.263771543118994
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a unified model for three inter-related tasks: 1) to \textit{separate} individual sound sources from a mixed music audio, 2) to \textit{transcribe} each sound source to MIDI notes, and 3) to\textit{ synthesize} new pieces based on the timbre of separated sources. The model is inspired by the fact that when humans listen to music, our minds can not only separate the sounds of different instruments, but also at the same time perceive high-level representations such as score and timbre. To mirror such capability computationally, we designed a pitch-timbre disentanglement module based on a popular encoder-decoder neural architecture for source separation. The key inductive biases are vector-quantization for pitch representation and pitch-transformation invariant for timbre representation. In addition, we adopted a query-by-example method to achieve \textit{zero-shot} learning, i.e., the model is capable of doing source separation, transcription, and synthesis for \textit{unseen} instruments. The current design focuses on audio mixtures of two monophonic instruments. Experimental results show that our model outperforms existing multi-task baselines, and the transcribed score serves as a powerful auxiliary for separation tasks.
Abstract（参考訳）: そこで本研究では,(1)混合音楽音声からの個々の音源の合成,2)MIDIノートへの変換,3)分離した音源の音色に基づく新曲の合成,の3つのタスクの統一モデルを提案する。このモデルは、人間が音楽を聴くとき、私たちの心は異なる楽器の音を分離できるだけでなく、スコアや音色といったハイレベルな表現も認識できるという事実にインスピレーションを受けています。そこで我々は,ソース分離のためのエンコーダ・デコーダ・ニューラルアーキテクチャに基づいて,ピッチ音のアンタングル化モジュールを設計した。主な帰納バイアスは、ピッチ表現のためのベクトル量子化と音色表現のためのピッチ変換不変量である。さらに,\textit{zero-shot}学習を実現するために,クエリ・バイ・サンプル法を適用した。つまり,このモデルは,\textit{unseen}楽器のソース分離,転写,合成を行うことができる。現在のデザインは2つのモノフォニック楽器の混合音に焦点を当てている。実験結果から,本モデルは既存のマルチタスクベースラインよりも優れており,書き起こしスコアは分離作業の強力な補助役として機能することがわかった。

関連論文リスト

Score-informed Music Source Separation: Improving Synthetic-to-real Generalization in Classical Music [8.468436398420764]
音源分離は、楽器の混合物を構成トラックに分離する作業である。本稿では,楽譜の分離を支援する2つの方法として,楽譜情報モデルと楽譜情報のみのモデルを提案する。スコアインフォームドモデルは、ベースラインアプローチと比較して分離結果を改善するが、合成データから実データへの一般化に苦慮する。
論文参考訳（メタデータ） (2025-03-10T14:08:31Z)
Separate This, and All of these Things Around It: Music Source Separation via Hyperellipsoidal Queries [53.30852012059025]
音源分離は音声から音声までの検索作業である。音楽ソース分離における最近の研究は、固定状態パラダイムに挑戦し始めている。本稿では,超楕円体領域をクエリとして使用することにより,ターゲット(位置)とスプレッドの両方を指定するための直感的かつ容易にパラメトリザブルなアプローチを提案する。
論文参考訳（メタデータ） (2025-01-27T16:13:50Z)
Sines, Transient, Noise Neural Modeling of Piano Notes [0.0]
3つのサブモジュールはピアノ録音からコンポーネントを学び、ハーモニック、トランジェント、ノイズ信号を生成する。特異点から、三弦の異なる鍵と畳み込みに基づくネットワークとの結合をエミュレートする。その結果、モデルがターゲットの部分分布と一致し、スペクトルの上部のエネルギーがより多くの課題をもたらすことを予測した。
論文参考訳（メタデータ） (2024-09-10T13:48:18Z)
Combining audio control and style transfer using latent diffusion [1.705371629600151]
本稿では,単一モデル内での明示的な制御とスタイル転送を統一することを目的とする。我々のモデルは、明示的な制御または他のオーディオ例を通して構造を指定しながら、音色ターゲットにマッチする音声を生成することができる。本手法は,異なるジャンルのターゲットオーディオのスタイルにリズミカル・メロディックなコンテンツを転送することで,完全な楽曲のカバーバージョンを生成することができることを示す。
論文参考訳（メタデータ） (2024-07-31T23:27:27Z)
Timbre-Trap: A Low-Resource Framework for Instrument-Agnostic Music Transcription [19.228155694144995]
Timbre-Trapは、音楽の書き起こしと音声の再構成を統合する新しいフレームワークである。我々は1つのオートエンコーダを訓練し、ピッチサリエンスを同時に推定し、複雑なスペクトル係数を再構成する。このフレームワークは、最先端の楽器に依存しない書き起こし手法に匹敵する性能を示す。
論文参考訳（メタデータ） (2023-09-27T15:19:05Z)
TokenSplit: Using Discrete Speech Representations for Direct, Refined, and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文参考訳（メタデータ） (2023-08-21T01:52:01Z)
Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文参考訳（メタデータ） (2023-05-30T17:59:26Z)
Noise2Music: Text-conditioned Music Generation with Diffusion Models [73.74580231353684]
本研究では,テキストプロンプトから高品質な30秒音楽クリップを生成するために,一連の拡散モデルを訓練するNoss2Musicを紹介する。生成した音声は、ジャンル、テンポ、楽器、ムード、時代など、テキストプロンプトの重要な要素を忠実に反映できるだけでなく、テキストプロンプトを忠実に反映できる。トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。
論文参考訳（メタデータ） (2023-02-08T07:27:27Z)
Multi-Source Diffusion Models for Simultaneous Music Generation and Separation [17.124189082882395]
私たちは、音楽ソース分離のための標準データセットであるSlakh2100でモデルをトレーニングします。我々の手法は、生成タスクと分離タスクの両方を処理できる単一のモデルの最初の例である。
論文参考訳（メタデータ） (2023-02-04T23:18:36Z)
Multi-instrument Music Synthesis with Spectrogram Diffusion [19.81982315173444]
我々は、MIDIシーケンスから任意の組み合わせの楽器をリアルタイムで生成できるニューラルシンセサイザーの中盤に焦点を当てる。 MIDIはエンコーダ・デコーダ変換器でスペクトログラム、次いでGAN(Generative Adversarial Network)スペクトルインバータでスペクトログラムからオーディオへ分光する。これは、楽器と音符の任意の組み合わせのための対話的で表現力のあるニューラルシンセシスに向けた、有望な第一歩である。
論文参考訳（メタデータ） (2022-06-11T03:26:15Z)
BinauralGrad: A Two-Stage Conditional Diffusion Probabilistic Model for Binaural Audio Synthesis [129.86743102915986]
我々は、音声を共通部分へ分解することで、異なる視点から合成プロセスを定式化する。拡散モデルを備えた新しい2段階フレームワークであるBinauralGradを提案する。実験結果から,BinauralGradは対象評価指標と対象評価指標の両方において,既存のベースラインよりも高い性能を示した。
論文参考訳（メタデータ） (2022-05-30T02:09:26Z)
Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文参考訳（メタデータ） (2020-08-06T18:29:11Z)
Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文参考訳（メタデータ） (2020-07-13T12:35:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。