論文の概要: GAN-based Content-Conditioned Generation of Handwritten Musical Symbols
- arxiv url: http://arxiv.org/abs/2510.17869v1
- Date: Thu, 16 Oct 2025 11:21:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.241197
- Title: GAN-based Content-Conditioned Generation of Handwritten Musical Symbols
- Title(参考訳): GANに基づく手書き音楽記号のコンテンツ記述生成
- Authors: Gerard Asbert, Pau Torras, Lei Kang, Alicia Fornés, Josep Lladós,
- Abstract要約: 本研究では,音楽記号レベル生成支援ネットワーク(GAN)を実装することで,手書きのリアルな楽譜の生成について検討する。
我々はこれらの生成したサンプルの視覚的忠実度を評価し、生成したシンボルは高いリアリズムを示すと結論づけた。
- 参考スコア(独自算出の注目度): 5.69735546372407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The field of Optical Music Recognition (OMR) is currently hindered by the scarcity of real annotated data, particularly when dealing with handwritten historical musical scores. In similar fields, such as Handwritten Text Recognition, it was proven that synthetic examples produced with image generation techniques could help to train better-performing recognition architectures. This study explores the generation of realistic, handwritten-looking scores by implementing a music symbol-level Generative Adversarial Network (GAN) and assembling its output into a full score using the Smashcima engraving software. We have systematically evaluated the visual fidelity of these generated samples, concluding that the generated symbols exhibit a high degree of realism, marking significant progress in synthetic score generation.
- Abstract(参考訳): 光音楽認識(OMR)の分野は現在、特に手書きの歴史的楽譜を扱う際に、実際の注釈付きデータの不足によって妨げられている。
手書き文字認識のような類似の分野では、画像生成技術で生成された合成例がより良い性能の認識アーキテクチャの訓練に役立つことが証明された。
本研究では,音楽記号レベル生成適応ネットワーク(GAN)を実装し,その出力をSmashcimaエングレービングソフトウェアを用いて完全なスコアに組み込むことにより,現実的な手書き楽譜の生成について検討する。
生成した標本の視覚的忠実度を体系的に評価し, 生成したシンボルは高いリアリズムを示し, 合成スコア生成の著しい進歩を示している。
関連論文リスト
- Decoding Musical Origins: Distinguishing Human and AI Composers [0.6246322794612152]
YNoteは、新しい機械学習フレンドリーな音楽表記システムである。
我々は、音楽が人間によって構成されているかどうかを識別できる効果的な分類モデルを訓練する。
このモデルは98.25%の精度を達成し、YNoteが十分なスタイリスティックな情報を保持することを示すことに成功した。
論文 参考訳(メタデータ) (2025-09-14T17:50:33Z) - Scaling Self-Supervised Representation Learning for Symbolic Piano Performance [52.661197827466886]
本研究では,多量のシンボリック・ピアノ転写を訓練した自己回帰型トランスフォーマモデルの能力について検討した。
比較的小型で高品質なサブセットをファインチューンモデルに使い、音楽の継続を生成、シンボリックな分類タスクを実行し、汎用的なコントラストMIDI埋め込みを生成する。
論文 参考訳(メタデータ) (2025-06-30T14:00:14Z) - KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
KITTENはKnowledge-InTensiveイメージジェネラティオンのベンチマークである。
我々は最新のテキスト・画像モデルと検索強化モデルについて体系的な研究を行う。
分析によると、高度なテキスト・ツー・イメージモデルでさえ、エンティティの正確な視覚的詳細を生成できない。
論文 参考訳(メタデータ) (2024-10-15T17:50:37Z) - Knowledge Discovery in Optical Music Recognition: Enhancing Information Retrieval with Instance Segmentation [0.0]
光音楽認識(OMR)は、画像からMusicXML、MEI、MIDIなどの機械可読フォーマットに音符の書き起こしを自動化する。
本研究では,MAsk R-CNNを用いたサンプルセグメンテーションを適用してOMRにおける知識発見について検討し,楽譜における記号の検出とデライン化を強化する。
論文 参考訳(メタデータ) (2024-08-27T12:34:41Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - One-shot Compositional Data Generation for Low Resource Handwritten Text
Recognition [10.473427493876422]
低リソース手書きテキスト認識は、わずかな注釈付きデータと非常に限られた言語情報のために難しい問題です。
本稿では,ベイズプログラム学習に基づくデータ生成手法を用いてこの問題に対処する。
大量の注釈付き画像を必要とする従来型の手法とは対照的に,各記号のサンプルを1つだけ,所望のアルファベットから生成することが可能である。
論文 参考訳(メタデータ) (2021-05-11T18:53:01Z) - Generative Hierarchical Features from Synthesizing Images [65.66756821069124]
画像合成の学習は、広範囲のアプリケーションにまたがって一般化可能な顕著な階層的な視覚的特徴をもたらす可能性があることを示す。
生成的階層的特徴(Generative Hierarchical Feature, GH-Feat)と呼ばれるエンコーダが生成する視覚的特徴は、生成的タスクと識別的タスクの両方に強い伝達性を有する。
論文 参考訳(メタデータ) (2020-07-20T18:04:14Z) - Embeddings as representation for symbolic music [0.0]
音楽の意味を含む方法で音楽のエンコードを可能にする表現技法は、コンピュータ音楽タスクのために訓練されたモデルの結果を改善する。
本稿では,データセットの3つの異なるバリエーションから音符を表現し,モデルが有用な音楽パターンを捉えることができるかどうかを解析するための埋め込み実験を行う。
論文 参考訳(メタデータ) (2020-05-19T13:04:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。