Fugu-MT 論文翻訳(概要): Audio-to-Score Conversion Model Based on Whisper methodology

論文の概要: Audio-to-Score Conversion Model Based on Whisper methodology

arxiv url: http://arxiv.org/abs/2410.17209v1
Date: Tue, 22 Oct 2024 17:31:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:39.117029
Title: Audio-to-Score Conversion Model Based on Whisper methodology
Title（参考訳）: ウィスパー手法に基づく音声-スコア変換モデル
Authors: Hongyao Zhang, Bohang Sun,
Abstract要約: この論文は、音楽情報をトークンに変換するカスタム表記システムである"Orpheus' Score"を革新的に導入している。実験によると、従来のアルゴリズムと比較して、モデルは精度と性能を大幅に改善した。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This thesis develops a Transformer model based on Whisper, which extracts melodies and chords from music audio and records them into ABC notation. A comprehensive data processing workflow is customized for ABC notation, including data cleansing, formatting, and conversion, and a mutation mechanism is implemented to increase the diversity and quality of training data. This thesis innovatively introduces the "Orpheus' Score", a custom notation system that converts music information into tokens, designs a custom vocabulary library, and trains a corresponding custom tokenizer. Experiments show that compared to traditional algorithms, the model has significantly improved accuracy and performance. While providing a convenient audio-to-score tool for music enthusiasts, this work also provides new ideas and tools for research in music information processing.
Abstract（参考訳）: この論文では、Whisperに基づくトランスフォーマーモデルを開発し、音楽オーディオから旋律や和音を抽出し、ABC表記に記録する。データクリーニング、フォーマッティング、変換を含むABC表記のための包括的なデータ処理ワークフローをカスタマイズし、トレーニングデータの多様性と品質を高めるために突然変異機構を実装する。この論文は、音楽情報をトークンに変換し、独自の語彙ライブラリを設計し、対応するカスタムトークンライザを訓練するカスタム表記システムである「オルフェウススコア」を革新的に導入している。実験によると、従来のアルゴリズムと比較して、モデルは精度と性能を大幅に改善した。音楽愛好家のための便利なオーディオ・スコアツールを提供する一方で、この研究は音楽情報処理の研究のための新しいアイデアとツールも提供する。

関連論文リスト

Discovering "Words" in Music: Unsupervised Learning of Compositional Sparse Code for Symbolic Music [50.87225308217594]
本稿では,記号的音楽データから「音楽単語」と呼ばれる繰り返しパターンを識別する教師なし機械学習アルゴリズムを提案する。本稿では,音楽単語発見の課題を統計的最適化問題として定式化し,二段階予測最大化(EM)に基づく学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-09-29T11:10:57Z)
Towards an AI Musician: Synthesizing Sheet Music Problems for Musical Reasoning [69.78158549955384]
本稿では,ビートやインターバルをプログラム関数として扱うような,コア音楽理論のルールを扱う新しいアプローチを提案する。このアプローチは、テキストと視覚の両方で検証可能な楽譜の質問を生成する。 SSMR-Benchの評価結果は,楽譜の解釈における重要な役割を浮き彫りにした。
論文参考訳（メタデータ） (2025-09-04T09:42:17Z)
Exploring Procedural Data Generation for Automatic Acoustic Guitar Fingerpicking Transcription [2.8544822698499255]
本研究では、実際の音声記録の代替として、手続き型データ生成パイプラインについて検討する。提案手法は,知識ベースフィンガーピッキング・タブチュア・コンポジション,MIDIパフォーマンス・レンダリング,物理モデリングの4段階を通じてトレーニングデータを合成する。我々は、実データと合成データの両方でCRNNベースのノート追跡モデルを訓練し、評価し、手続きデータを用いて適切なノート追跡結果が得られることを示す。
論文参考訳（メタデータ） (2025-08-11T13:52:17Z)
EditGen: Harnessing Cross-Attention Control for Instruction-Based Auto-Regressive Audio Editing [54.10773655199149]
自動回帰モデルにおける効率的な音声編集のためのクロスアテンション制御の活用について検討する。画像編集手法に触発されて,横断的・自己認識的メカニズムを通じて編集をガイドするPrompt-to-Promptライクなアプローチを開発した。
論文参考訳（メタデータ） (2025-07-15T08:44:11Z)
Music Boomerang: Reusing Diffusion Models for Data Augmentation and Audio Manipulation [49.062766449989525]
音楽オーディオの生成モデルは、典型的にはテキストプロンプトやメロディのみに基づいて出力を生成するために使用される。画像領域に対して最近提案されたブーメランサンプリングでは,任意の事前学習拡散モデルを用いて,既存の例に近い出力を生成することができる。
論文参考訳（メタデータ） (2025-07-07T10:46:07Z)
Music102: An $D_{12}$-equivariant transformer for chord progression accompaniment [0.0]
Music102は、D12等価変圧器によるコード進行伴奏を強化する。先行する音楽知識を符号化することにより、モデルはメロディとコードシーケンスの双方で等価性を維持する。この研究は、離散音楽領域への自己注意機構と層正規化の適応性を示す。
論文参考訳（メタデータ） (2024-10-23T03:11:01Z)
Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning [24.6866990804501]
Instruct-MusicGenは、事前訓練されたMusicGenモデルを微調整して、効率的に編集命令に従う新しいアプローチである。注目すべきは、Instruct-MusicGenはオリジナルのMusicGenモデルに8%新しいパラメータを導入し、5Kステップでのみ列車を走らせることだ。
論文参考訳（メタデータ） (2024-05-28T17:27:20Z)
MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文参考訳（メタデータ） (2024-04-09T15:35:52Z)
GETMusic: Generating Any Music Tracks with a Unified Representation and Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。 GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文参考訳（メタデータ） (2023-05-18T09:53:23Z)
RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。 RMS-SVS方式であるRMSSingerを提案する。 RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文参考訳（メタデータ） (2023-05-18T03:57:51Z)
Transfer of knowledge among instruments in automatic music transcription [2.0305676256390934]
この研究は、ソフトウェアシンセサイザーが生成した合成音声データを使って、普遍的なモデルを訓練する方法を示す。これは、他の楽器の転写モデルに迅速に適応するために、さらなる転写学習を行うための良い基盤である。
論文参考訳（メタデータ） (2023-04-30T08:37:41Z)
Melody transcription via generative pre-training [86.08508957229348]
メロディの書き起こしの鍵となる課題は、様々な楽器のアンサンブルや音楽スタイルを含む幅広いオーディオを処理できる方法を構築することである。この課題に対処するために、広帯域オーディオの生成モデルであるJukebox(Dhariwal et al. 2020)の表現を活用する。広義音楽のクラウドソースアノテーションから50ドル(約5,400円)のメロディ書き起こしを含む新しいデータセットを導出する。
論文参考訳（メタデータ） (2022-12-04T18:09:23Z)
Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文参考訳（メタデータ） (2022-11-21T07:19:17Z)
MusCaps: Generating Captions for Music Audio [14.335950077921435]
時間的注目のエンコーダデコーダで構成された最初の音楽オーディオキャプションモデルであるMusCapsを紹介します。本手法は畳み込み型ニューラルネットワークアーキテクチャと繰り返し型ニューラルネットワークアーキテクチャを組み合わせて,音声テキスト入力を共同処理する。我々のモデルは、分類に基づく音楽記述から脱却し、聴覚と言語の両方の理解を必要とするタスクを組み合わせている。
論文参考訳（メタデータ） (2021-04-24T16:34:47Z)
Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文参考訳（メタデータ） (2020-08-06T18:29:11Z)
Learning Style-Aware Symbolic Music Representations by Adversarial Autoencoders [9.923470453197657]
我々は,文脈情報を用いた変動型オートエンコーダを組み込むための,フレキシブルで自然な手段として,逆正則化を活用することに注力する。第1回音楽Adversarial Autoencoder(MusAE)について紹介する。我々のモデルは、標準変分オートエンコーダに基づく最先端モデルよりも高い再構成精度を有する。
論文参考訳（メタデータ） (2020-01-15T18:07:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。