論文の概要: Synthesising Handwritten Music with GANs: A Comprehensive Evaluation of CycleWGAN, ProGAN, and DCGAN
- arxiv url: http://arxiv.org/abs/2411.16405v1
- Date: Mon, 25 Nov 2024 14:10:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:22:36.235563
- Title: Synthesising Handwritten Music with GANs: A Comprehensive Evaluation of CycleWGAN, ProGAN, and DCGAN
- Title(参考訳): GANを用いた手書き楽曲の合成:CycleWGAN, ProGAN, DCGANの総合評価
- Authors: Elona Shatri, Kalikidhar Palavala, George Fazekas,
- Abstract要約: 本稿では,現実的な手書き楽譜の合成にGAN(Generative Adversarial Networks)を適用し,データ不足問題に対処する。
本稿では,3種類のGANモデル(DCGAN, ProGAN, CycleWGAN)について,多彩で高品質な手書き音楽画像を生成する能力の比較を行った。
スタイル伝達とトレーニングの安定性を向上させるCycleWGANモデルは,定性評価と定量的評価の両方において,DCGANとProGANを著しく上回っている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The generation of handwritten music sheets is a crucial step toward enhancing Optical Music Recognition (OMR) systems, which rely on large and diverse datasets for optimal performance. However, handwritten music sheets, often found in archives, present challenges for digitisation due to their fragility, varied handwriting styles, and image quality. This paper addresses the data scarcity problem by applying Generative Adversarial Networks (GANs) to synthesise realistic handwritten music sheets. We provide a comprehensive evaluation of three GAN models - DCGAN, ProGAN, and CycleWGAN - comparing their ability to generate diverse and high-quality handwritten music images. The proposed CycleWGAN model, which enhances style transfer and training stability, significantly outperforms DCGAN and ProGAN in both qualitative and quantitative evaluations. CycleWGAN achieves superior performance, with an FID score of 41.87, an IS of 2.29, and a KID of 0.05, making it a promising solution for improving OMR systems.
- Abstract(参考訳): 手書き音楽シートの生成は、最適なパフォーマンスのために大規模で多様なデータセットに依存する光学音楽認識(OMR)システムを強化するための重要なステップである。
しかし、しばしばアーカイブで見られる手書きの楽譜は、その脆弱さ、様々な手書きスタイル、画像品質などの理由から、デジタル化の課題を提示している。
本稿では,現実的な手書き楽譜の合成にGAN(Generative Adversarial Networks)を適用し,データ不足問題に対処する。
本稿では,3種類のGANモデル(DCGAN, ProGAN, CycleWGAN)について,多彩で高品質な手書き音楽画像を生成する能力の比較を行った。
スタイル転送とトレーニングの安定性を向上させるCycleWGANモデルは,定性評価と定量的評価の両方において,DCGANとProGANを著しく上回っている。
CycleWGANは、FIDスコアが41.87、ISが2.29、KIDが0.05であり、OMRシステムを改善するための有望なソリューションである。
関連論文リスト
- End-to-End Real-World Polyphonic Piano Audio-to-Score Transcription with Hierarchical Decoding [4.604877755214193]
既存のピアノA2Sシステムは、合成データのみで訓練され、評価されている。
楽譜の階層構造に整合した階層デコーダを用いたシーケンス・ツー・シーケンス(Seq2Seq)モデルを提案する。
本研究では,合成音声上での表現的パフォーマンスレンダリングシステムを用いてモデルを事前学習する2段階学習手法を提案し,続いて人間の演奏記録を用いてモデルを微調整する。
論文 参考訳(メタデータ) (2024-05-22T10:52:04Z) - End-to-End Full-Page Optical Music Recognition for Pianoform Sheet Music [12.779526750915707]
我々は、ページレベルの光音楽認識のための、真にエンドツーエンドなアプローチを初めて提示する。
本システムでは,音楽スコアページ全体を処理し,完全書き起こしを楽曲エンコーディング形式で出力する。
その結果,本システムは,全ページの楽譜の書き起こしに成功しただけでなく,ゼロショット設定とターゲットドメインとの微調整の両面において,商業ツールよりも優れていた。
論文 参考訳(メタデータ) (2024-05-20T15:21:48Z) - G-Refine: A General Quality Refiner for Text-to-Image Generation [74.16137826891827]
G-Refineは,高画質画像の整合性を損なうことなく,低画質画像の高精細化を図った汎用画像精細機である。
このモデルは、知覚品質指標、アライメント品質指標、一般的な品質向上モジュールの3つの相互接続モジュールで構成されている。
大規模な実験により、G-Refine以降のAIGIは、4つのデータベースで10以上の品質指標でパフォーマンスが向上していることが明らかになった。
論文 参考訳(メタデータ) (2024-04-29T00:54:38Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - HiFi-123: Towards High-fidelity One Image to 3D Content Generation [64.81863143986384]
HiFi-123は高忠実で多視点で一貫した3D生成のために設計された手法である。
本稿では,拡散型ゼロショットノベルビュー合成法の忠実度を大幅に向上する参照ガイド型新規ビュー拡張(RGNV)技術を提案する。
また,新たにRGSD(Reference-Guided State Distillation)を施行した。
論文 参考訳(メタデータ) (2023-10-10T16:14:20Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - FALL-E: A Foley Sound Synthesis Model and Strategies [0.5599792629509229]
FALL-Eモデルは、低分解能スペクトログラム生成、スペクトル超解像、ボコーダからなるカスケード方式を採用している。
我々はデータセット固有のテキストでモデルを条件付けし、テキスト入力に基づいて音質と記録環境を学習できるようにした。
論文 参考訳(メタデータ) (2023-06-16T12:44:10Z) - Condensing a Sequence to One Informative Frame for Video Recognition [113.3056598548736]
本稿では,まず映像シーケンスを情報的「フレーム」に凝縮する2段階の代替手法について検討する。
有効な疑問は、どのように「有用な情報」を定義し、シーケンスから1つの合成フレームに蒸留するかである。
IFSは画像ベースの2Dネットワークとクリップベースの3Dネットワークを一貫して改善している。
論文 参考訳(メタデータ) (2022-01-11T16:13:43Z) - Identity-Aware CycleGAN for Face Photo-Sketch Synthesis and Recognition [61.87842307164351]
まず,画像生成ネットワークの監視に新たな知覚損失を適用したIACycleGAN(Identity-Aware CycleGAN)モデルを提案する。
眼や鼻などの重要な顔領域の合成により多くの注意を払うことで、フォトエッチング合成におけるサイクガンを改善する。
IACycleGANによる画像の合成を反復的に行う合成モデルと認識モデルとの相互最適化手法を開発した。
論文 参考訳(メタデータ) (2021-03-30T01:30:08Z) - DE-GAN: A Conditional Generative Adversarial Network for Document
Enhancement [4.073826298938431]
本稿では,高度に劣化した文書イメージを復元するために,文書拡張生成適応ネットワーク(DE-GAN)と呼ばれるエンドツーエンドのフレームワークを提案する。
異なるタスク(文書のクリーンアップ、ビナライゼーション、デブロアリング、透かし除去)において、DE-GANは劣化した文書を高品質に拡張できることを示した。
論文 参考訳(メタデータ) (2020-10-17T10:54:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。