論文の概要: From Note-Level to Chord-Level Neural Network Models for Voice
Separation in Symbolic Music
- arxiv url: http://arxiv.org/abs/2011.03028v1
- Date: Thu, 5 Nov 2020 18:39:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 11:50:01.239341
- Title: From Note-Level to Chord-Level Neural Network Models for Voice
Separation in Symbolic Music
- Title(参考訳): シンボリック音楽における音声分離のための音素レベルから和音レベルニューラルネットワークモデル
- Authors: Patrick Gray and Razvan Bunescu
- Abstract要約: 我々は、和音(和音レベル)の各音に対して別々に音符を割り当てるニューラルネットワークを訓練し、和音レベル(和音レベル)のすべての音符に共同で音符を割り当てる。
どちらのモデルもエンベロープ抽出関数の反復的適用に基づいて強いベースラインを超える。
2つのモデルはまた、バッハ音楽における声を分離する以前のアプローチよりも優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Music is often experienced as a progression of concurrent streams of notes,
or voices. The degree to which this happens depends on the position along a
voice-leading continuum, ranging from monophonic, to homophonic, to polyphonic,
which complicates the design of automatic voice separation models. We address
this continuum by defining voice separation as the task of decomposing music
into streams that exhibit both a high degree of external perceptual separation
from the other streams and a high degree of internal perceptual consistency.
The proposed voice separation task allows for a voice to diverge to multiple
voices and also for multiple voices to converge to the same voice. Equipped
with this flexible task definition, we manually annotated a corpus of popular
music and used it to train neural networks that assign notes to voices either
separately for each note in a chord (note-level), or jointly to all notes in a
chord (chord-level). The trained neural models greedily assign notes to voices
in a left to right traversal of the input chord sequence, using a diverse set
of perceptually informed input features. When evaluated on the extraction of
consecutive within voice note pairs, both models surpass a strong baseline
based on an iterative application of an envelope extraction function, with the
chord-level model consistently edging out the note-level model. The two models
are also shown to outperform previous approaches on separating the voices in
Bach music.
- Abstract(参考訳): 音楽はしばしば、音符や声の同時流れの進行として経験される。
これが起こる程度は、単音素からホモフォニック、ポリフォニックまで、音声を導く連続体に沿った位置に依存しており、これは自動音声分離モデルの設計を複雑にしている。
本稿では,他のストリームからの外部知覚分離度の高いストリームと,内部知覚一貫性度の高いストリームに楽曲を分解するタスクとして,音声分離を定義することで,この連続性に対処する。
提案する音声分離タスクは,複数の声に発散すると同時に,複数の声を同じ声に収束させる。
この柔軟なタスク定義を備えることで、手作業でポピュラー音楽のコーパスをアノテートし、和音(ノートレベル)の各音符に対して、あるいは和音(コードレベル)のすべての音符に対して、それぞれ別々に音符を割り当てるニューラルネットワークのトレーニングに使用しました。
訓練されたニューラルモデルは、様々な知覚的に情報を得た入力特徴を用いて、入力コードシーケンスの左右方向の音声に音符を優雅に割り当てる。
音符ペア内の連続的な抽出について評価すると,音符レベルモデルが一貫した和音レベルモデルによりエンベロープ抽出関数の反復的適用に基づいて,両モデルが強いベースラインを超える。
2つのモデルは、バッハ音楽における声を分離する以前のアプローチよりも優れていた。
関連論文リスト
- Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - Musical Voice Separation as Link Prediction: Modeling a Musical
Perception Task as a Multi-Trajectory Tracking Problem [6.617487928813374]
本論文は,ポリフォニック音楽作品において,異なる相互作用する声,すなわちモノフォニック・メロディック・ストリームを分離する知覚的タスクを目標とする。
我々はこのタスクを、離散的な観測、すなわちピッチ時間空間における音符から、MTT(Multi-Trajectory Tracking)問題としてモデル化する。
提案手法では,音符毎に1つのノードを作成し,同じ音声/ストリームで連続している場合の2つの音符間のリンクを予測し,旋律的軌跡を分離することにより,楽譜からグラフを構築する。
論文 参考訳(メタデータ) (2023-04-28T13:48:00Z) - Karaoker: Alignment-free singing voice synthesis with speech training
data [3.9795908407245055]
カラオカー (Karaoker) は、タコトロンをベースとした多話者モデルである。
このモデルは、連続データ上に1つの深い畳み込みエンコーダで共同条件付けされている。
特徴再構成,分類,話者識別タスクによるテキスト音声訓練の目的を拡大する。
論文 参考訳(メタデータ) (2022-04-08T15:33:59Z) - VoViT: Low Latency Graph-based Audio-Visual Voice Separation Transformer [4.167459103689587]
本稿では,音声分離のための音声-視覚的アプローチを提案する。
音声と歌声の2つのシナリオにおいて、最先端の手法を低レイテンシで上回る。
論文 参考訳(メタデータ) (2022-03-08T14:08:47Z) - A Unified Model for Zero-shot Music Source Separation, Transcription and
Synthesis [13.263771543118994]
1)混合音源から個々の音源をテキスト化する,2)各音源をMIDI音符に書き起こす,3)分離音源の音色に基づいて新曲を合成する,という3つのタスクの統一モデルを提案する。
このモデルは、人間が音楽を聴くとき、私たちの心は異なる楽器の音を分離できるだけでなく、スコアや音色といったハイレベルな表現も認識できるという事実にインスピレーションを受けています。
論文 参考訳(メタデータ) (2021-08-07T14:28:21Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。
音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。
オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文 参考訳(メタデータ) (2020-07-13T12:35:45Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。