Fugu-MT 論文翻訳(概要): Synthesising Handwritten Music with GANs: A Comprehensive Evaluation of CycleWGAN, ProGAN, and DCGAN

論文の概要: Synthesising Handwritten Music with GANs: A Comprehensive Evaluation of CycleWGAN, ProGAN, and DCGAN

arxiv url: http://arxiv.org/abs/2411.16405v1
Date: Mon, 25 Nov 2024 14:10:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:50.822443
Title: Synthesising Handwritten Music with GANs: A Comprehensive Evaluation of CycleWGAN, ProGAN, and DCGAN
Title（参考訳）: GANを用いた手書き楽曲の合成:CycleWGAN, ProGAN, DCGANの総合評価
Authors: Elona Shatri, Kalikidhar Palavala, George Fazekas,
Abstract要約: 本稿では,現実的な手書き楽譜の合成にGAN(Generative Adversarial Networks)を適用し,データ不足問題に対処する。本稿では,3種類のGANモデル(DCGAN, ProGAN, CycleWGAN)について,多彩で高品質な手書き音楽画像を生成する能力の比較を行った。スタイル伝達とトレーニングの安定性を向上させるCycleWGANモデルは,定性評価と定量的評価の両方において,DCGANとProGANを著しく上回っている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The generation of handwritten music sheets is a crucial step toward enhancing Optical Music Recognition (OMR) systems, which rely on large and diverse datasets for optimal performance. However, handwritten music sheets, often found in archives, present challenges for digitisation due to their fragility, varied handwriting styles, and image quality. This paper addresses the data scarcity problem by applying Generative Adversarial Networks (GANs) to synthesise realistic handwritten music sheets. We provide a comprehensive evaluation of three GAN models - DCGAN, ProGAN, and CycleWGAN - comparing their ability to generate diverse and high-quality handwritten music images. The proposed CycleWGAN model, which enhances style transfer and training stability, significantly outperforms DCGAN and ProGAN in both qualitative and quantitative evaluations. CycleWGAN achieves superior performance, with an FID score of 41.87, an IS of 2.29, and a KID of 0.05, making it a promising solution for improving OMR systems.
Abstract（参考訳）: 手書き音楽シートの生成は、最適なパフォーマンスのために大規模で多様なデータセットに依存する光学音楽認識(OMR)システムを強化するための重要なステップである。しかし、しばしばアーカイブで見られる手書きの楽譜は、その脆弱さ、様々な手書きスタイル、画像品質などの理由から、デジタル化の課題を提示している。本稿では,現実的な手書き楽譜の合成にGAN(Generative Adversarial Networks)を適用し,データ不足問題に対処する。本稿では,3種類のGANモデル(DCGAN, ProGAN, CycleWGAN)について,多彩で高品質な手書き音楽画像を生成する能力の比較を行った。スタイル転送とトレーニングの安定性を向上させるCycleWGANモデルは,定性評価と定量的評価の両方において,DCGANとProGANを著しく上回っている。 CycleWGANは、FIDスコアが41.87、ISが2.29、KIDが0.05であり、OMRシステムを改善するための有望なソリューションである。

関連論文リスト

Scaling Self-Supervised Representation Learning for Symbolic Piano Performance [52.661197827466886]
本研究では,多量のシンボリック・ピアノ転写を訓練した自己回帰型トランスフォーマモデルの能力について検討した。比較的小型で高品質なサブセットをファインチューンモデルに使い、音楽の継続を生成、シンボリックな分類タスクを実行し、汎用的なコントラストMIDI埋め込みを生成する。
論文参考訳（メタデータ） (2025-06-30T14:00:14Z)
Text2midi-InferAlign: Improving Symbolic Music Generation with Inference-Time Alignment [6.806050368211496]
提案するText2midi-InferAlignは,推定時間におけるシンボリック音楽生成を改善する新しい手法である。提案手法は,テキスト・オーディオ・アライメントと推定中の音楽構造アライメントの報酬を利用して,生成した音楽が入力キャプションと整合するように促す。
論文参考訳（メタデータ） (2025-05-19T03:36:06Z)
Aligned Music Notation and Lyrics Transcription [8.411893399638046]
本稿では,Aligned Music Notation and Lyrics Transcription (AMNLT) の課題を紹介する。音楽記号、歌詞、それらの同期を共同で検討することで、声楽の完全な書き起こしに対処する。我々は、音楽と歌詞を別々に扱う従来の分詞法から、新しいエンドツーエンドソリューションまで、この課題に対処するための様々なアプローチを評価する。
論文参考訳（メタデータ） (2024-12-05T14:50:11Z)
Efficient Fine-Grained Guidance for Diffusion-Based Symbolic Music Generation [14.156461396686248]
拡散モデルにFGG(Fined Guidance)アプローチを導入する。 FGGは拡散モデルをガイドし、専門家作曲家の制御と意図とより密に整合した音楽を生成する。このアプローチは拡散モデルにより、即興性やインタラクティブな音楽生成といった高度な応用に優れる。
論文参考訳（メタデータ） (2024-10-11T00:41:46Z)
End-to-End Real-World Polyphonic Piano Audio-to-Score Transcription with Hierarchical Decoding [4.604877755214193]
既存のピアノA2Sシステムは、合成データのみで訓練され、評価されている。楽譜の階層構造に整合した階層デコーダを用いたシーケンス・ツー・シーケンス(Seq2Seq)モデルを提案する。本研究では,合成音声上での表現的パフォーマンスレンダリングシステムを用いてモデルを事前学習する2段階学習手法を提案し,続いて人間の演奏記録を用いてモデルを微調整する。
論文参考訳（メタデータ） (2024-05-22T10:52:04Z)
End-to-End Full-Page Optical Music Recognition for Pianoform Sheet Music [12.779526750915707]
我々は、ページレベルの光音楽認識のための、真にエンドツーエンドなアプローチを初めて提示する。本システムでは,音楽スコアページ全体を処理し,完全書き起こしを楽曲エンコーディング形式で出力する。その結果,本システムは,全ページの楽譜の書き起こしに成功しただけでなく,ゼロショット設定とターゲットドメインとの微調整の両面において,商業ツールよりも優れていた。
論文参考訳（メタデータ） (2024-05-20T15:21:48Z)
G-Refine: A General Quality Refiner for Text-to-Image Generation [74.16137826891827]
G-Refineは,高画質画像の整合性を損なうことなく,低画質画像の高精細化を図った汎用画像精細機である。このモデルは、知覚品質指標、アライメント品質指標、一般的な品質向上モジュールの3つの相互接続モジュールで構成されている。大規模な実験により、G-Refine以降のAIGIは、4つのデータベースで10以上の品質指標でパフォーマンスが向上していることが明らかになった。
論文参考訳（メタデータ） (2024-04-29T00:54:38Z)
MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文参考訳（メタデータ） (2024-04-09T15:35:52Z)
Learning from Synthetic Data for Visual Grounding [55.21937116752679]
そこで本研究では,SynGroundが市販のビジョン・アンド・ランゲージモデルのローカライズ能力を向上できることを示す。 SynGroundで生成されたデータは、事前訓練されたALBEFモデルとBLIPモデルのポインティングゲーム精度をそれぞれ4.81%、絶対パーセンテージポイント17.11%向上させる。
論文参考訳（メタデータ） (2024-03-20T17:59:43Z)
HiFi-123: Towards High-fidelity One Image to 3D Content Generation [64.81863143986384]
HiFi-123は高忠実で多視点で一貫した3D生成のために設計された手法である。本稿では,拡散型ゼロショットノベルビュー合成法の忠実度を大幅に向上する参照ガイド型新規ビュー拡張(RGNV)技術を提案する。また,新たにRGSD(Reference-Guided State Distillation)を施行した。
論文参考訳（メタデータ） (2023-10-10T16:14:20Z)
MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文参考訳（メタデータ） (2023-06-18T12:56:46Z)
FALL-E: A Foley Sound Synthesis Model and Strategies [0.5599792629509229]
FALL-Eモデルは、低分解能スペクトログラム生成、スペクトル超解像、ボコーダからなるカスケード方式を採用している。我々はデータセット固有のテキストでモデルを条件付けし、テキスト入力に基づいて音質と記録環境を学習できるようにした。
論文参考訳（メタデータ） (2023-06-16T12:44:10Z)
Condensing a Sequence to One Informative Frame for Video Recognition [113.3056598548736]
本稿では,まず映像シーケンスを情報的「フレーム」に凝縮する2段階の代替手法について検討する。有効な疑問は、どのように「有用な情報」を定義し、シーケンスから1つの合成フレームに蒸留するかである。 IFSは画像ベースの2Dネットワークとクリップベースの3Dネットワークを一貫して改善している。
論文参考訳（メタデータ） (2022-01-11T16:13:43Z)
Identity-Aware CycleGAN for Face Photo-Sketch Synthesis and Recognition [61.87842307164351]
まず,画像生成ネットワークの監視に新たな知覚損失を適用したIACycleGAN(Identity-Aware CycleGAN)モデルを提案する。眼や鼻などの重要な顔領域の合成により多くの注意を払うことで、フォトエッチング合成におけるサイクガンを改善する。 IACycleGANによる画像の合成を反復的に行う合成モデルと認識モデルとの相互最適化手法を開発した。
論文参考訳（メタデータ） (2021-03-30T01:30:08Z)
DE-GAN: A Conditional Generative Adversarial Network for Document Enhancement [4.073826298938431]
本稿では,高度に劣化した文書イメージを復元するために,文書拡張生成適応ネットワーク(DE-GAN)と呼ばれるエンドツーエンドのフレームワークを提案する。異なるタスク(文書のクリーンアップ、ビナライゼーション、デブロアリング、透かし除去)において、DE-GANは劣化した文書を高品質に拡張できることを示した。
論文参考訳（メタデータ） (2020-10-17T10:54:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。