論文の概要: Lightweight Self-Supervised Detection of Fundamental Frequency and Accurate Probability of Voicing in Monophonic Music
- arxiv url: http://arxiv.org/abs/2601.11768v1
- Date: Fri, 16 Jan 2026 20:46:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.313438
- Title: Lightweight Self-Supervised Detection of Fundamental Frequency and Accurate Probability of Voicing in Monophonic Music
- Title(参考訳): モノフォニック音楽における発声の基本周波数と正確な発声確率の軽量自己監督検出
- Authors: Venkat Suprabath Bitra, Homayoon Beigi,
- Abstract要約: 本稿では,F0推定とVoicing推論のための軽量で完全自己教師型フレームワークを提案する。
提案手法は競争力のあるクロスコーパス性能(RPA 95.84, RCA 96.24)を実現し,クロスインストラクトの一般化を実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reliable fundamental frequency (F 0) and voicing estimation is essential for neural synthesis, yet many pitch extractors depend on large labeled corpora and degrade under realistic recording artifacts. We propose a lightweight, fully self-supervised framework for joint F 0 estimation and voicing inference, designed for rapid single-instrument training from limited audio. Using transposition-equivariant learning on CQT features, we introduce an EM-style iterative reweighting scheme that uses Shift Cross-Entropy (SCE) consistency as a reliability signal to suppress uninformative noisy/unvoiced frames. The resulting weights provide confidence scores that enable pseudo-labeling for a separate lightweight voicing classifier without manual annotations. Trained on MedleyDB and evaluated on MDB-stem-synth ground truth, our method achieves competitive cross-corpus performance (RPA 95.84, RCA 96.24) and demonstrates cross-instrument generalization.
- Abstract(参考訳): 信頼性の高い基本周波数(F0)と発声推定は神経合成に不可欠であるが、多くのピッチ抽出器は大きなラベル付きコーパスに依存し、現実的な記録アーティファクトでは劣化する。
本稿では,限られた音声から高速なシングルインストラクショントレーニングを実現するための,F0推定と発声推論のための軽量で完全自己教師型フレームワークを提案する。
そこで我々は,CQT特徴量におけるトランスポジション同変学習を用いて,シフトクロスエントロピー(SCE)一貫性を信頼性信号として用いたEMスタイルの反復重み付け方式を導入し,不定形雑音/無声フレームの抑制を行う。
結果として得られた重みは信頼スコアを提供し、手動のアノテーションを使わずに、個別の軽量音声分類器の擬似ラベル付けを可能にする。
本手法は,MedleyDBを用いて学習し,MDB-stem-synthグラウンドの真理に基づいて,競合するクロスコーパス性能(RPA 95.84,RCA 96.24)を実現し,クロスストラクチャの一般化を実証する。
関連論文リスト
- Pay Attention to CTC: Fast and Robust Pseudo-Labelling for Unified Speech Recognition [61.39209522608919]
統一音声認識は、音声、視覚、および聴覚の音声認識のための単一のモデルを訓練するための半教師付きフレームワークとして登場した。
そこでは,CTCの擬似ラベルをアテンションターゲットを生成するためにデコーダに入力するCTC駆動型教師強制方式を提案する。
CTCとCTC駆動のアテンション擬似ラベルは同じ長さであるため、デコーダは両方を同時に予測できる。
論文 参考訳(メタデータ) (2026-02-22T19:38:21Z) - Learning to Separate RF Signals Under Uncertainty: Detect-Then-Separate vs. Unified Joint Models [53.79667447811139]
受信した信号に直接適用した場合、単一のディープニューラルネットワークアーキテクチャが共同で検出および分離することを学習していることを示す。
これらの結果から,UJM は DTS に代わるスケーラブルで実用的な代替品であり,広範に推定された統合分離のための新たな方向を開拓した。
論文 参考訳(メタデータ) (2026-02-04T15:25:02Z) - Adaptive Evidence Weighting for Audio-Spatiotemporal Fusion [0.0]
生物音響分類では、音波信号と、位置と季節としての文脈の両方から種識別が推測される。
本稿では,事前学習したテキスト音声分類器と時間的予測器を統合した適応型対数線形エビデンス融合フレームワークFINCHを紹介する。
FINCHは固定重融合とオーディオのみのベースラインを一貫して上回り、堅牢性とエラーのトレードオフを改善している。
論文 参考訳(メタデータ) (2026-02-03T18:21:13Z) - Domain-Incremental Continual Learning for Robust and Efficient Keyword Spotting in Resource Constrained Systems [0.0]
キーワード エッジデバイスにデプロイされる小さなフットプリントモデルを備えたスポッティングシステムは、かなりの精度と堅牢性に直面する。
計算効率を維持しつつ,新しい領域に適応する継続的学習のための包括的フレームワークを提案する。
提案したパイプラインは、Mel Frequency Cepstral Coefficients(MFCC)とMel-spectrogram機能の両方を利用して、デュアルインプットの畳み込みニューラルネットワークを統合する。
論文 参考訳(メタデータ) (2026-01-22T17:59:31Z) - Noise-Adaptive Regularization for Robust Multi-Label Remote Sensing Image Classification [5.658568324275769]
付加音と減音音を区別する雑音適応正規化法であるNARを提案する。
NARは、既存の方法と比較して、一貫して堅牢性を改善する。
性能改善は、減音と混合ノイズの下で最も顕著である。
論文 参考訳(メタデータ) (2026-01-13T11:16:45Z) - Exploiting Radio Frequency Fingerprints for Device Identification: Tackling Cross-receiver Challenges in the Source-data-free Scenario [17.211137756661955]
本稿では、ソースレシーバからのラベル付き信号に事前学習されたモデルが、ターゲットレシーバからのラベルなし信号に適応しなければならない、ソースデータフリーなクロスレシーバRFFI問題を提案する。
我々は,運動量中心誘導型ソフト擬似ラベルを組み込んだSCRFFIの新しい手法であるMomentum Soft pseudo-label Source hypothesis Transfer (MS-SHOT)を提案する。
MS-SHOTは、精度とロバスト性の両方において既存のアプローチを一貫して上回り、RFFIにおけるソースデータフリーなクロスレシーバ適応のための実用的でスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-12-18T15:20:33Z) - Cross-Attention with Confidence Weighting for Multi-Channel Audio Alignment [5.380078543698624]
マルチチャンネルオーディオアライメントは、生体音響モニタリング、空間オーディオシステム、音響ローカライゼーションにおいて重要な要件である。
マルチチャンネル音声同期を改善するために,クロスアテンション機構と信頼度重み付けスコアリングを組み合わせた手法を提案する。
提案手法は,BioDCASE 2025 Task 1 チャレンジにおいて,ディープラーニングベースラインの 0.58 に対して,テストデータセットの平均 0.30 MSE で1位となった。
論文 参考訳(メタデータ) (2025-09-21T05:14:06Z) - Reproducible Machine Learning-based Voice Pathology Detection: Introducing the Pitch Difference Feature [1.7779568951268254]
本稿では,現在公開されているSaarbr"ucken Voice Databaseを用いた音声病理診断手法を提案する。
機械学習(ML)アルゴリズムを6つ評価する - サポートベクターマシン、kネアレスト隣人、ナイーブベイズ、決定木、ランダムフォレスト、AdaBoost。
アプローチは, 女性, 男性, 合計で85.61%, 84.69%, および85.22%であった。
論文 参考訳(メタデータ) (2024-10-14T14:17:52Z) - SSP-RACL: Classification of Noisy Fundus Images with Self-Supervised Pretraining and Robust Adaptive Credal Loss [3.8739860035485143]
基礎画像分類はコンピュータの診断タスクにおいて重要であるが、ラベルノイズはディープニューラルネットワークの性能を著しく損なう。
本稿では,ロバスト適応クレダルロス (SSP-RACL) を用いた自己監督型事前訓練(Self-Supervised Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-09-25T02:41:58Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Confidence-aware Training of Smoothed Classifiers for Certified
Robustness [75.95332266383417]
我々は「ガウス雑音下での精度」を、入力に対する対角的ロバスト性の容易に計算可能なプロキシとして利用する。
実験の結果, 提案手法は, 最先端の訓練手法による信頼性向上を継続的に示すことがわかった。
論文 参考訳(メタデータ) (2022-12-18T03:57:12Z) - Disentangled Representation Learning for RF Fingerprint Extraction under
Unknown Channel Statistics [77.13542705329328]
本稿では,まず,不整合表現学習(DRL)の枠組みを提案し,入力信号を逆学習によりデバイス関連成分とデバイス関連成分に分解する。
提案フレームワークにおける暗黙的なデータ拡張は、デバイス非関連チャネル統計の過度な適合を避けるために、RFF抽出器に正規化を課す。
実験により、DR-RFFと呼ばれる提案手法は、未知の複雑な伝播環境に対する一般化可能性の観点から従来の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-08-04T15:46:48Z) - Model-based Deep Learning Receiver Design for Rate-Splitting Multiple
Access [65.21117658030235]
本研究では,モデルベース深層学習(MBDL)に基づく実用的なRSMA受信機の設計を提案する。
MBDL受信機は、符号なしシンボル誤り率(SER)、リンクレベルシミュレーション(LLS)によるスループット性能、平均トレーニングオーバーヘッドの観点から評価される。
その結果,MBDLはCSIRが不完全なSIC受信機よりも優れていた。
論文 参考訳(メタデータ) (2022-05-02T12:23:55Z) - S3: Supervised Self-supervised Learning under Label Noise [53.02249460567745]
本稿では,ラベルノイズの存在下での分類の問題に対処する。
提案手法の核心は,サンプルのアノテートラベルと特徴空間内のその近傍のラベルの分布との整合性に依存するサンプル選択機構である。
提案手法は,CIFARCIFAR100とWebVisionやANIMAL-10Nなどの実環境ノイズデータセットの両方で,従来の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2021-11-22T15:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。