論文の概要: BERT-APC: A Reference-free Framework for Automatic Pitch Correction via Musical Context Inference
- arxiv url: http://arxiv.org/abs/2511.20006v1
- Date: Tue, 25 Nov 2025 07:16:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.331966
- Title: BERT-APC: A Reference-free Framework for Automatic Pitch Correction via Musical Context Inference
- Title(参考訳): BERT-APC:音楽文脈推論によるピッチ自動補正のための参照不要フレームワーク
- Authors: Sungjae Kim, Kihyun Na, Jinyoung Choi, Injung Kim,
- Abstract要約: BERT-APCは、新しい参照なし自動ピッチ補正フレームワークである。
ボーカル演奏の自然な表現性を保ちながらピッチ誤差を補正する。
BERT-APCは音符ピッチ予測において優れた性能を示し、高度に劣化したサンプルに対して第2のベストモデルであるROSVOTを10.49%上回った。
- 参考スコア(独自算出の注目度): 6.7611107349018456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic Pitch Correction (APC) enhances vocal recordings by aligning pitch deviations with the intended musical notes. However, existing APC systems either rely on reference pitches, which limits their practical applicability, or employ simple pitch estimation algorithms that often fail to preserve expressiveness and naturalness. We propose BERT-APC, a novel reference-free APC framework that corrects pitch errors while maintaining the natural expressiveness of vocal performances. In BERT-APC, a novel stationary pitch predictor first estimates the perceived pitch of each note from the detuned singing voice. A context-aware note pitch predictor estimates the intended pitch sequence by leveraging a music language model repurposed to incorporate musical context. Finally, a note-level correction algorithm fixes pitch errors while preserving intentional pitch deviations for emotional expression. In addition, we introduce a learnable data augmentation strategy that improves the robustness of the music language model by simulating realistic detuning patterns. Compared to two recent singing voice transcription models, BERT-APC demonstrated superior performance in note pitch prediction, outperforming the second-best model, ROSVOT, by 10.49%p on highly detuned samples in terms of the raw pitch accuracy. In the MOS test, BERT-APC achieved the highest score of $4.32 \pm 0.15$, which is significantly higher than those of the widely-used commercial APC tools, AutoTune ($3.22 \pm 0.18$) and Melodyne ($3.08 \pm 0.18$), while maintaining a comparable ability to preserve expressive nuances. To the best of our knowledge, this is the first APC model that leverages a music language model to achieve reference-free pitch correction with symbolic musical context. The corrected audio samples of BERT-APC are available online.
- Abstract(参考訳): APC(Automatic Pitch Correction)は、ピッチ偏差を意図した音符に合わせることで、音声録音を強化する。
しかし、既存のAPCシステムは、その実用性を制限する基準ピッチに依存するか、または表現力と自然性を維持するのに失敗する単純なピッチ推定アルゴリズムを使用する。
声楽演奏の自然な表現性を維持しつつピッチ誤差を補正する新しい参照フリーAPCフレームワークであるBERT-APCを提案する。
BERT-APCでは、新しい定常ピッチ予測器がまず、音符の知覚ピッチを、変形した歌声から推定する。
文脈対応音符ピッチ予測器は、音楽コンテキストを組み込むために再利用された音楽言語モデルを利用して、意図した音符シーケンスを推定する。
最後に、感情表現のための意図的なピッチ偏差を保ちながら、音符レベルの補正アルゴリズムによりピッチ誤差を補正する。
さらに、現実的なデチューニングパターンをシミュレートすることで、学習可能なデータ拡張戦略を導入し、音楽言語モデルの堅牢性を向上させる。
最近の2つの歌唱音声書き起こしモデルと比較すると、BERT-APCは音符ピッチ予測において優れた性能を示し、第2のベストモデルであるROSVOTよりも10.49%高い性能を示した。
MOSテストでは、BERT-APCの最高スコアは4.32 \pm 0.15$であり、これは広く使われている商用APCツールであるAutoTune(3.22 \pm 0.18$)やMelodyne(3.08 \pm 0.18$)よりも大幅に高い。
我々の知る限りでは、これは音楽言語モデルを利用した初めてのAPCモデルであり、シンボリック・ミュージック・コンテキストによる参照なしピッチ補正を実現する。
BERT-APCの修正されたオーディオサンプルはオンラインで入手できる。
関連論文リスト
- EditGen: Harnessing Cross-Attention Control for Instruction-Based Auto-Regressive Audio Editing [54.10773655199149]
自動回帰モデルにおける効率的な音声編集のためのクロスアテンション制御の活用について検討する。
画像編集手法に触発されて,横断的・自己認識的メカニズムを通じて編集をガイドするPrompt-to-Promptライクなアプローチを開発した。
論文 参考訳(メタデータ) (2025-07-15T08:44:11Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z) - FretNet: Continuous-Valued Pitch Contour Streaming for Polyphonic Guitar
Tablature Transcription [0.34376560669160383]
GTT(Guitar Tablature Transcription)のような特定の応用では、連続的に評価されたピッチの輪郭を推定することがより意味がある。
連続的に評価されたピッチの輪郭を推定する GTT の定式化について述べる。
提案手法は, MPEの分解能を著しく向上し, ベースラインモデルと競合するタブレート推定結果が得られることを示した。
論文 参考訳(メタデータ) (2022-12-06T14:51:27Z) - Unaligned Supervision For Automatic Music Transcription in The Wild [1.2183405753834562]
NoteEMは、トランクレーバーを同時に訓練し、スコアを対応するパフォーマンスに合わせる方法である。
我々は、MAPSデータセットのSOTAノートレベル精度と、データセット間の評価において好適なマージンを報告した。
論文 参考訳(メタデータ) (2022-04-28T17:31:43Z) - Enhancement of Pitch Controllability using Timbre-Preserving Pitch
Augmentation in FastPitch [3.858078488714278]
我々はFastPitchの堅牢性を改善するために2つのアルゴリズムを提案する。
まず,自然ピッチ増大のための音節保存型ピッチシフトアルゴリズムを提案する。
実験により,提案アルゴリズムはFastPitchのピッチ制御性を向上することを示した。
論文 参考訳(メタデータ) (2022-04-12T12:48:06Z) - Learning the Beauty in Songs: Neural Singing Voice Beautifier [69.21263011242907]
我々は、新しいタスク、歌声美化(SVB)に興味を持っている。
アマチュア歌手の歌声を考えると、SVBは内容と声の音色を保ちながら、声のイントネーションと声のトーンを改善することを目的としている。
SVBタスクを解く最初の生成モデルであるNSVB(Neural Singing Voice Beautifier)を導入する。
論文 参考訳(メタデータ) (2022-02-27T03:10:12Z) - Generating Music with a Self-Correcting Non-Chronological Autoregressive
Model [6.289267097017553]
本稿では,自己修正的,非時間的,自己回帰的モデルを用いた新しい音楽生成手法について述べる。
我々は音楽を編集イベントのシーケンスとして表現し、それぞれがノートの追加または削除を表す。
推論中、直接祖先サンプリングを用いて1回に1回の編集イベントを生成する。
論文 参考訳(メタデータ) (2020-08-18T20:36:47Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Deep Autotuner: a Pitch Correcting Network for Singing Performances [26.019582802302033]
独唱演奏の自動ピッチ補正のためのデータ駆動方式を提案する。
良いイントネーションのために選択された4,702人のアマチュアカラオケパフォーマンスのデータセットを用いてニューラルネットワークモデルをトレーニングする。
畳み込み層上にゲートリカレントユニットを配置したディープニューラルネットワークは,実世界の楽譜なしの歌唱ピッチ補正タスクにおいて,有望な性能を示す。
論文 参考訳(メタデータ) (2020-02-12T01:33:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。