論文の概要: voice2mode: Phonation Mode Classification in Singing using Self-Supervised Speech Models
- arxiv url: http://arxiv.org/abs/2602.13928v1
- Date: Sat, 14 Feb 2026 23:51:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.56441
- Title: voice2mode: Phonation Mode Classification in Singing using Self-Supervised Speech Models
- Title(参考訳): voice2mode:自己監督音声モデルを用いた歌唱における音韻モードの分類
- Authors: Aju Ani Justus, Ruchit Agrawal, Sudarsana Reddy Kadiri, Shrikanth Narayanan,
- Abstract要約: 我々は,大規模な自己教師型音声モデルから抽出した埋め込みを用いた4つの歌唱モード(呼吸,中性,流れ,押圧)の分類法であるVoice2modeを提案する。
我々は、初期層から得られた HuBERT 埋め込みが最高の結果(SVM では95.7% の精度)を得ることを示した。
- 参考スコア(独自算出の注目度): 44.76258866929522
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present voice2mode, a method for classification of four singing phonation modes (breathy, neutral (modal), flow, and pressed) using embeddings extracted from large self-supervised speech models. Prior work on singing phonation has relied on handcrafted signal features or task-specific neural nets; this work evaluates the transferability of speech foundation models to singing phonation classification. voice2mode extracts layer-wise representations from HuBERT and two wav2vec2 variants, applies global temporal pooling, and classifies the pooled embeddings with lightweight classifiers (SVM, XGBoost). Experiments on a publicly available soprano dataset (763 sustained vowel recordings, four labels) show that foundation-model features substantially outperform conventional spectral baselines (spectrogram, mel-spectrogram, MFCC). HuBERT embeddings obtained from early layers yield the best result (~95.7% accuracy with SVM), an absolute improvement of ~12-15% over the best traditional baseline. We also show layer-wise behaviour: lower layers, which retain acoustic/phonetic detail, are more effective than top layers specialized for Automatic Speech Recognition (ASR).
- Abstract(参考訳): 我々は,大規模な自己教師型音声モデルから抽出した埋め込みを用いて,4つの歌唱モード(ブレーシー,中性(モーダル),フロー,プレス)の分類法であるVoice2modeを提案する。
従来は手作りの信号特徴やタスク固有のニューラルネットに頼っていたが,本研究は音声基礎モデルの歌唱音素分類への変換性を評価する。
voice2modeは、HuBERTと2つのwav2vec2変種からレイヤーワイズ表現を抽出し、グローバル時間プーリングを適用し、プールされた埋め込みを軽量な分類器(SVM, XGBoost)で分類する。
公開されているソプラノデータセット(763の持続母音記録、4つのラベル)の実験では、基礎モデルの特徴が従来のスペクトルベースライン(スペクトル、メル-スペクトログラム、MFCC)を大幅に上回っていることが示されている。
初期の層から得られた HuBERT の埋め込みは、最高の結果(SVM では 95.7% の精度)を得る。
音響/音声の細部を保持する下位層は、音声認識(ASR)に特化した上位層よりも効果的である。
関連論文リスト
- Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Investigation of Self-supervised Pre-trained Models for Classification
of Voice Quality from Speech and Neck Surface Accelerometer Signals [27.398425786898223]
本研究では,音声品質の分類における音声とNSA信号の同時記録について検討した。
事前学習モデルの有効性は,音声入力とNSA入力の両方に対して,声門音源波形と生信号波形の特徴抽出において比較される。
論文 参考訳(メタデータ) (2023-08-06T23:16:54Z) - Self-supervised Neural Factor Analysis for Disentangling Utterance-level
Speech Representations [30.293081541301746]
wav2vecやHuBERTのような自己教師付き学習(SSL)音声モデルは、音声認識における最先端の性能を実証している。
この問題は,不整合表現の欠如と発話レベルの学習目標が原因である。
我々のモデルは、SUPERBベンチマークの全ての発話レベル非意味タスクにおいて、ラベル付きデータのわずか20%で、現在の最高のモデルであるWavLMより優れています。
論文 参考訳(メタデータ) (2023-05-14T08:26:24Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。