論文の概要: Spectrogram-Based Detection of Auto-Tuned Vocals in Music Recordings
- arxiv url: http://arxiv.org/abs/2403.05380v1
- Date: Fri, 8 Mar 2024 15:19:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 13:14:23.175366
- Title: Spectrogram-Based Detection of Auto-Tuned Vocals in Music Recordings
- Title(参考訳): スペクトログラムによる音楽録音中の自動調音声の検出
- Authors: Mahyar Gohari, Paolo Bestagini, Sergio Benini, Nicola Adami
- Abstract要約: 本研究では,3重項ネットワークを利用した自動音節検出手法を提案する。
実験により,提案手法の精度とロバスト性の両方において,反汚濁防止のためのエンドツーエンドモデルであるRawnet2よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 9.646498710102174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the domain of music production and audio processing, the implementation of
automatic pitch correction of the singing voice, also known as Auto-Tune, has
significantly transformed the landscape of vocal performance. While auto-tuning
technology has offered musicians the ability to tune their vocal pitches and
achieve a desired level of precision, its use has also sparked debates
regarding its impact on authenticity and artistic integrity. As a result,
detecting and analyzing Auto-Tuned vocals in music recordings has become
essential for music scholars, producers, and listeners. However, to the best of
our knowledge, no prior effort has been made in this direction. This study
introduces a data-driven approach leveraging triplet networks for the detection
of Auto-Tuned songs, backed by the creation of a dataset composed of original
and Auto-Tuned audio clips. The experimental results demonstrate the
superiority of the proposed method in both accuracy and robustness compared to
Rawnet2, an end-to-end model proposed for anti-spoofing and widely used for
other audio forensic tasks.
- Abstract(参考訳): 音楽制作と音声処理の分野では、オートチューン(Auto-Tune)として知られる歌唱音声の自動ピッチ補正の実装は、声楽演奏の景観を大きく変えた。
自動チューニング技術は、ミュージシャンに声のピッチを調整し、望ましいレベルの精度を達成する能力を与えてきたが、その使用は、その真正性や芸術的整合性への影響に関する議論を引き起こした。
その結果、音楽学者、プロデューサー、リスナーにとって、録音中のオートチューニング音声の検出と分析が不可欠となった。
しかし、私たちの知る限りでは、この方向への事前の努力は行われていない。
本研究では,トリプレットネットワークを活用したデータ駆動アプローチを導入し,オリジナルと自動調整された音声クリップからなるデータセットの作成を支援する。
実験により,提案手法の精度とロバスト性の両方に優れることを示すとともに,他の音声法医学的タスクに広く用いられているアンチ・スポーフィングのためのエンドツーエンドモデルであるRawnet2との比較を行った。
関連論文リスト
- Music Auto-Tagging with Robust Music Representation Learned via Domain
Adversarial Training [18.71152526968065]
音楽情報検索(MIR)の既存のモデルは、マルチメディアコンテンツにおける環境や音声などの現実的なノイズに苦しむ。
本研究では,音声関連タスクにインスパイアされた,ノイズの多い環境下での音楽の自動タグ付け性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-01-27T06:56:51Z) - Resource-constrained stereo singing voice cancellation [1.0962868591006976]
ステレオ歌唱音声キャンセリングの問題点について検討する。
提案手法は,客観的なオフラインメトリクスと大規模MUSHRA試験を用いて評価する。
論文 参考訳(メタデータ) (2024-01-22T16:05:30Z) - Singer Identity Representation Learning using Self-Supervised Techniques [0.0]
歌唱関連タスクに適した表現を抽出するシンガーアイデンティティエンコーダを訓練するためのフレームワークを提案する。
我々は,孤立した音声トラックの集合体上で,異なる自己教師付き学習手法を探索する。
歌手の類似度と識別タスクにおける表現の質を評価する。
論文 参考訳(メタデータ) (2024-01-10T10:41:38Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - Human Voice Pitch Estimation: A Convolutional Network with Auto-Labeled
and Synthetic Data [0.0]
本稿では,ピッチ抽出のための特殊な畳み込みニューラルネットワークを提案する。
提案手法は,合成データと自動ラベル付アカペラ歌唱音声を組み合わせることで,ロバストなトレーニング環境を構築する。
この研究は、音楽と音声の両方において、ピッチ抽出の強化の道を開くものである。
論文 参考訳(メタデータ) (2023-08-14T14:26:52Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Learning the Beauty in Songs: Neural Singing Voice Beautifier [69.21263011242907]
我々は、新しいタスク、歌声美化(SVB)に興味を持っている。
アマチュア歌手の歌声を考えると、SVBは内容と声の音色を保ちながら、声のイントネーションと声のトーンを改善することを目的としている。
SVBタスクを解く最初の生成モデルであるNSVB(Neural Singing Voice Beautifier)を導入する。
論文 参考訳(メタデータ) (2022-02-27T03:10:12Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。