論文の概要: VioPTT: Violin Technique-Aware Transcription from Synthetic Data Augmentation
- arxiv url: http://arxiv.org/abs/2509.23759v2
- Date: Tue, 30 Sep 2025 02:44:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 12:20:10.399865
- Title: VioPTT: Violin Technique-Aware Transcription from Synthetic Data Augmentation
- Title(参考訳): VioPTT: ビオリン技術による合成データからの転写
- Authors: Ting-Kang Wang, Yueh-Po Peng, Li Su, Vincent K. M. Cheung,
- Abstract要約: VioPTT (Violin Playing Technique-aware Transcription) は、ヴァイオリンの演奏技法を直接書き起こし、ピッチのオンセットとオフセットを行う軽量なエンド・ツー・エンドのモデルである。
我々は、手動でラベル付けされたアノテーションの必要性を回避するために、新しい高品質な合成ヴァイオリン演奏技術データセットMOSA-VPTをリリースした。
- 参考スコア(独自算出の注目度): 6.024482963060964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While automatic music transcription is well-established in music information retrieval, most models are limited to transcribing pitch and timing information from audio, and thus omit crucial expressive and instrument-specific nuances. One example is playing technique on the violin, which affords its distinct palette of timbres for maximal emotional impact. Here, we propose VioPTT (Violin Playing Technique-aware Transcription), a lightweight, end-to-end model that directly transcribes violin playing technique in addition to pitch onset and offset. Furthermore, we release MOSA-VPT, a novel, high-quality synthetic violin playing technique dataset to circumvent the need for manually labeled annotations. Leveraging this dataset, our model demonstrated strong generalization to real-world note-level violin technique recordings in addition to achieving state-of-the-art transcription performance. To our knowledge, VioPTT is the first to jointly combine violin transcription and playing technique prediction within a unified framework.
- Abstract(参考訳): 音楽情報検索において、自動的な音楽書き起こしは確立されているが、ほとんどのモデルは、音声からピッチやタイミング情報を転写することに限定されており、重要な表現や楽器固有のニュアンスを省略している。
一つの例はヴァイオリンでテクニックを弾くことであり、音色の異なるパレットを最大限の感情的影響のために与えている。
そこで本研究では,ヴァイオリン演奏技術を直接書き起こし,ピッチのオンセットとオフセットに加えて,ヴァイオリン演奏技術を直接書き起こす軽量なエンドツーエンドモデルであるVioPTTを提案する。
さらに、手動でラベル付けされたアノテーションの必要性を回避するため、新しい高品質な合成ヴァイオリン演奏技術であるMOSA-VPTをリリースする。
このデータセットを応用して,本モデルは,最先端の転写性能の達成に加えて,実世界の音質レベルのヴァイオリン技術記録への強力な一般化を実証した。
我々の知る限り、VioPTTは、統一されたフレームワーク内でヴァイオリンの書き起こしと技術予測を共同で組み合わせた最初のものである。
関連論文リスト
- PianoVAM: A Multimodal Piano Performance Dataset [56.318475235705954]
PianoVAMは、ビデオ、オーディオ、MIDI、手のランドマーク、指のラベル、リッチメタデータを含む包括的なピアノパフォーマンスデータセットである。
データセットはディクラヴィエピアノを使用して録音され、アマチュアピアニストの日々の練習セッション中にオーディオとMIDIをキャプチャした。
事前訓練されたポーズ推定モデルと半自動指先アノテーションアルゴリズムを用いて,手指のランドマークと指先ラベルを抽出した。
論文 参考訳(メタデータ) (2025-09-10T17:35:58Z) - Towards an AI Musician: Synthesizing Sheet Music Problems for Musical Reasoning [69.78158549955384]
本稿では,ビートやインターバルをプログラム関数として扱うような,コア音楽理論のルールを扱う新しいアプローチを提案する。
このアプローチは、テキストと視覚の両方で検証可能な楽譜の質問を生成する。
SSMR-Benchの評価結果は,楽譜の解釈における重要な役割を浮き彫りにした。
論文 参考訳(メタデータ) (2025-09-04T09:42:17Z) - Robust AI-Synthesized Speech Detection Using Feature Decomposition Learning and Synthesizer Feature Augmentation [52.0893266767733]
本稿では,特徴分解を利用して合成者非依存のコンテンツ特徴を学習する頑健なディープフェイク音声検出手法を提案する。
異なる合成器特性に対するモデルのロバスト性を高めるために,合成器の特徴増強戦略を提案する。
論文 参考訳(メタデータ) (2024-11-14T03:57:21Z) - ViolinDiff: Enhancing Expressive Violin Synthesis with Pitch Bend Conditioning [2.9153096940947796]
本稿では,2段階拡散に基づく合成フレームワークであるViolinDiffを紹介する。
提案モデルでは, 明示的なピッチ曲げモデリングを伴わないモデルよりも, より現実的なヴァイオリン音を生成する。
論文 参考訳(メタデータ) (2024-09-19T05:39:19Z) - End-to-End Full-Page Optical Music Recognition for Pianoform Sheet Music [12.779526750915707]
複雑なレイアウトにおいて、ページレベルの光音楽認識のための、真にエンドツーエンドなアプローチを初めて提示する。
本システムでは,畳み込み層と自己回帰変換器を組み合わせることで,楽譜ページ全体を処理し,完全書き起こしを符号化形式で出力する。
その結果,本システムは,全ページの楽譜の書き起こしに成功しただけでなく,ゼロショット設定とターゲットドメインとの微調整の両面において,商業ツールよりも優れていた。
論文 参考訳(メタデータ) (2024-05-20T15:21:48Z) - StyleSpeech: Self-supervised Style Enhancing with VQ-VAE-based
Pre-training for Expressive Audiobook Speech Synthesis [63.019962126807116]
音声ブックの合成音声の表現的品質は、一般化されたモデルアーキテクチャとアンバランスなスタイル分布によって制限される。
本稿では,VQ-VAEに基づく音声合成のための事前学習による自己教師付きスタイル向上手法を提案する。
論文 参考訳(メタデータ) (2023-12-19T14:13:26Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z) - Melody transcription via generative pre-training [86.08508957229348]
メロディの書き起こしの鍵となる課題は、様々な楽器のアンサンブルや音楽スタイルを含む幅広いオーディオを処理できる方法を構築することである。
この課題に対処するために、広帯域オーディオの生成モデルであるJukebox(Dhariwal et al. 2020)の表現を活用する。
広義音楽のクラウドソースアノテーションから50ドル(約5,400円)のメロディ書き起こしを含む新しいデータセットを導出する。
論文 参考訳(メタデータ) (2022-12-04T18:09:23Z) - Unaligned Supervision For Automatic Music Transcription in The Wild [1.2183405753834562]
NoteEMは、トランクレーバーを同時に訓練し、スコアを対応するパフォーマンスに合わせる方法である。
我々は、MAPSデータセットのSOTAノートレベル精度と、データセット間の評価において好適なマージンを報告した。
論文 参考訳(メタデータ) (2022-04-28T17:31:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。