論文の概要: Synthia's Melody: A Benchmark Framework for Unsupervised Domain
Adaptation in Audio
- arxiv url: http://arxiv.org/abs/2309.15024v1
- Date: Tue, 26 Sep 2023 15:46:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 13:02:20.089529
- Title: Synthia's Melody: A Benchmark Framework for Unsupervised Domain
Adaptation in Audio
- Title(参考訳): Synthia's Melody: オーディオにおける教師なしドメイン適応のためのベンチマークフレームワーク
- Authors: Chia-Hsin Lin, Charles Jones, Bj\"orn W. Schuller, Harry Coppock
- Abstract要約: 無限の4秒のメロディをシミュレートできる新しい音声データ生成フレームワークであるSynthiaのメロディを提示する。
観測条件下で収集された既存のデータセットとは異なり、シンシアのメロディには観測されていないバイアスがない。
評価の結果,Synthia のメロディは,これらのモデルの様々な分布シフトに対する感受性を検証するための頑健なテストベッドを提供することがわかった。
- 参考スコア(独自算出の注目度): 4.537310370334197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite significant advancements in deep learning for vision and natural
language, unsupervised domain adaptation in audio remains relatively
unexplored. We, in part, attribute this to the lack of an appropriate benchmark
dataset. To address this gap, we present Synthia's melody, a novel audio data
generation framework capable of simulating an infinite variety of 4-second
melodies with user-specified confounding structures characterised by musical
keys, timbre, and loudness. Unlike existing datasets collected under
observational settings, Synthia's melody is free of unobserved biases, ensuring
the reproducibility and comparability of experiments. To showcase its utility,
we generate two types of distribution shifts-domain shift and sample selection
bias-and evaluate the performance of acoustic deep learning models under these
shifts. Our evaluations reveal that Synthia's melody provides a robust testbed
for examining the susceptibility of these models to varying levels of
distribution shift.
- Abstract(参考訳): 視覚と自然言語の深層学習の進歩にもかかわらず、音声の教師なし領域適応はいまだに未解明のままである。
一部では、適切なベンチマークデータセットの欠如を理由としています。
このギャップに対処するために,音楽キー,音色,ラウドネスを特徴とするユーザ指定の複合構造により,無限に多様な4秒間のメロディをシミュレート可能な,シンシアのメロディを提案する。
観測環境下で収集された既存のデータセットとは異なり、シンシアのメロディは観測されていないバイアスがなく、実験の再現性と比較可能性を保証する。
有効性を示すために,2種類の分布シフトドメインシフトとサンプル選択バイアスを生成し,これらのシフト下での音響深層学習モデルの性能を評価する。
評価の結果,Synthia のメロディは,これらのモデルの様々な分布シフトに対する感受性を検証するための頑健なテストベッドを提供することがわかった。
関連論文リスト
- Towards Improving Harmonic Sensitivity and Prediction Stability for
Singing Melody Extraction [36.45127093978295]
本稿では,2つの仮定に基づいて,入力特徴量修正と訓練対象量修正を提案する。
後続高調波に対するモデルの感度を高めるため、離散z変換を用いた複合周波数と周期表現を修正した。
我々はこれらの修正を、MSNet、FTANet、ピアノの書き起こしネットワークから修正された新しいモデルPianoNetなど、いくつかのモデルに適用する。
論文 参考訳(メタデータ) (2023-08-04T21:59:40Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Improving the Robustness of Summarization Systems with Dual Augmentation [68.53139002203118]
頑健な要約システムは、入力中の特定の単語の選択やノイズに関わらず、文書のギストをキャプチャできるべきである。
まず,単語レベルの同義語置換や雑音を含む摂動に対する要約モデルの頑健性について検討する。
SummAttackerを提案する。これは言語モデルに基づく対数サンプルを生成するための効率的な手法である。
論文 参考訳(メタデータ) (2023-06-01T19:04:17Z) - Training a Deep Neural Network via Policy Gradients for Blind Source
Separation in Polyphonic Music Recordings [1.933681537640272]
音響信号における楽器の音の盲点分離法を提案する。
パラメトリックモデルを用いて個々の音色を記述し、辞書を訓練し、高調波の相対振幅を捉える。
提案アルゴリズムは,様々な音声サンプルに対して,特に低干渉で高品質な結果が得られる。
論文 参考訳(メタデータ) (2021-07-09T06:17:04Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - Structure-Aware Audio-to-Score Alignment using Progressively Dilated
Convolutional Neural Networks [8.669338893753885]
音楽演奏と楽譜の間の構造的差異の同定は、音声とスコアのアライメントにおいて難しいが不可欠なステップである。
本稿では、進化的に拡張された畳み込みニューラルネットワークを用いて、そのような違いを検出する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-01-31T05:14:58Z) - HpRNet : Incorporating Residual Noise Modeling for Violin in a
Variational Parametric Synthesizer [11.4219428942199]
そこで我々は,高音域の演奏スタイルにおいて,弓音が不可欠な部分であるカルナティック・ヴァイオリン記録のデータセットを提案する。
信号の高調波成分と残差成分、およびそれらの相互依存性についての知見を得る。
論文 参考訳(メタデータ) (2020-08-19T12:48:32Z) - Timbre latent space: exploration and creative aspects [1.3764085113103222]
近年の研究では、教師なしモデルがオートエンコーダを用いて可逆的な音声表現を学習できることが示されている。
生成ニューラルネットワークによって、音色操作の新たな可能性が実現されている。
論文 参考訳(メタデータ) (2020-08-04T07:08:04Z) - Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。
スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文 参考訳(メタデータ) (2020-08-01T07:46:24Z) - Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。
音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。
オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文 参考訳(メタデータ) (2020-07-13T12:35:45Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。