論文の概要: Region-based Layout Analysis of Music Score Images
- arxiv url: http://arxiv.org/abs/2201.04214v1
- Date: Tue, 11 Jan 2022 21:59:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-13 14:57:24.572487
- Title: Region-based Layout Analysis of Music Score Images
- Title(参考訳): 音楽スコア画像の領域ベースレイアウト解析
- Authors: Francisco J. Castellanos, Carlos Garrido-Munoz, Antonio R\'ios-Vila,
Jorge Calvo-Zaragoza
- Abstract要約: この研究は、異なるニューラルアーキテクチャ、音楽文書タイプ、評価シナリオに関する実験的研究に焦点を当てている。
トレーニングデータの必要性も、新しい半合成データ生成技術の提案につながっている。
その結果, (i) モデルの選択とその性能は, 転写過程全体において重要であること, (ii) LAステージの評価に一般的に使用される指標はOMRシステムの最終性能と必ずしも相関しないこと, (iii) 提案したデータ生成技術により, ラベル付きデータの限られたセットで, 最新の結果が得られることが示唆された。
- 参考スコア(独自算出の注目度): 8.029049649310211
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The Layout Analysis (LA) stage is of vital importance to the correct
performance of an Optical Music Recognition (OMR) system. It identifies the
regions of interest, such as staves or lyrics, which must then be processed in
order to transcribe their content. Despite the existence of modern approaches
based on deep learning, an exhaustive study of LA in OMR has not yet been
carried out with regard to the precision of different models, their
generalization to different domains or, more importantly, their impact on
subsequent stages of the pipeline. This work focuses on filling this gap in
literature by means of an experimental study of different neural architectures,
music document types and evaluation scenarios. The need for training data has
also led to a proposal for a new semi-synthetic data generation technique that
enables the efficient applicability of LA approaches in real scenarios. Our
results show that: (i) the choice of the model and its performance are crucial
for the entire transcription process; (ii) the metrics commonly used to
evaluate the LA stage do not always correlate with the final performance of the
OMR system, and (iii) the proposed data-generation technique enables
state-of-the-art results to be achieved with a limited set of labeled data.
- Abstract(参考訳): レイアウト解析(LA)ステージは、光学音楽認識(OMR)システムの正しい性能において極めて重要である。
スタブや歌詞などの興味のある領域を識別し、その内容の書き起こしのために処理しなければならない。
ディープラーニングに基づく現代的なアプローチが存在するにもかかわらず、OMRにおけるLAの徹底的な研究は、異なるモデルの精度、異なるドメインへの一般化、あるいはより重要なのは、パイプラインのその後のステージへの影響に関してまだ行われていない。
この研究は、異なるニューラルアーキテクチャ、音楽文書タイプ、評価シナリオの実験的な研究により、文学におけるこのギャップを埋めることに焦点を当てている。
トレーニングデータの必要性は、実際のシナリオにおけるLAアプローチの効率的な適用を可能にする、新しい半合成データ生成技術の提案につながっている。
結果はこう示しています
(i)モデルの選択とその性能は、転写過程全体において不可欠である。
(ii)laステージを評価するために一般的に用いられる指標は、omrシステムの最終性能と必ずしも相関しない。
(iii)提案手法は,ラベル付きデータの限られたセットで最先端の成果を実現できる。
関連論文リスト
- Exploring the Precise Dynamics of Single-Layer GAN Models: Leveraging Multi-Feature Discriminators for High-Dimensional Subspace Learning [0.0]
サブスペース学習の観点から,単層GANモデルのトレーニングダイナミクスについて検討する。
解析をサブスペース学習の領域にブリッジすることで,従来の手法と比較してGAN法の有効性を体系的に比較する。
論文 参考訳(メタデータ) (2024-11-01T10:21:12Z) - Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate [118.37653302885607]
本稿では,LVLM(Large Vision Language Models)のマルチモーダル事前学習品質を示すために,MIR(Modality Integration Rate)を提案する。
MIRは、トレーニングデータ選択、トレーニング戦略スケジュール、モデルアーキテクチャ設計に重点を置いて、トレーニング前の結果を改善する。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z) - Effective Data Selection for Seismic Interpretation through Disagreement [14.11559987180237]
新たなデータ選択フレームワークの開発は、地震解釈の確立した実践にインスパイアされている。
我々は提案したフレームワークの具体的実装を提供し、それをATLASと名づけた。
以上の結果より,ATLASは平均交叉結合率を最大12%向上させることが明らかとなった。
論文 参考訳(メタデータ) (2024-06-01T20:06:48Z) - Contrastive-Adversarial and Diffusion: Exploring pre-training and fine-tuning strategies for sulcal identification [3.0398616939692777]
対人学習、コントラスト学習、拡散認知学習、通常の再構成学習といった技術が標準となっている。
この研究は、ニューラルネットワークの学習プロセスを強化するために、事前学習技術と微調整戦略の利点を解明することを目的としている。
論文 参考訳(メタデータ) (2024-05-29T15:44:51Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Data Augmentation techniques in time series domain: A survey and
taxonomy [0.20971479389679332]
時系列を扱うディープニューラルネットワークは、トレーニングで使用されるデータセットのサイズと一貫性に大きく依存する。
この研究は、すべての利用可能なアルゴリズムの概要を提供するために、この分野の最先端を体系的にレビューする。
本研究の究極的な目的は、この分野の将来の研究者を導くために、より良い結果をもたらす領域の進化と性能を概説することである。
論文 参考訳(メタデータ) (2022-06-25T17:09:00Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Boosting the Generalization Capability in Cross-Domain Few-shot Learning
via Noise-enhanced Supervised Autoencoder [23.860842627883187]
我々は、新しいノイズ強調型教師付きオートエンコーダ(NSAE)を用いて、特徴分布のより広範なバリエーションを捉えるようモデルに教える。
NSAEは入力を共同で再構築し、入力のラベルと再構成されたペアを予測することによってモデルを訓練する。
また、NSAE構造を利用して、より適応性を高め、対象領域の分類性能を向上させる2段階の微調整手順を提案する。
論文 参考訳(メタデータ) (2021-08-11T04:45:56Z) - CDEvalSumm: An Empirical Study of Cross-Dataset Evaluation for Neural
Summarization Systems [121.78477833009671]
データセット間設定下での様々な要約モデルの性能について検討する。
異なるドメインの5つのデータセットに対する11の代表的な要約システムに関する包括的な研究は、モデルアーキテクチャと生成方法の影響を明らかにしている。
論文 参考訳(メタデータ) (2020-10-11T02:19:15Z) - Meta-learning framework with applications to zero-shot time-series
forecasting [82.61728230984099]
この研究は幅広いメタラーニングフレームワークを使って肯定的な証拠を提供する。
残余接続はメタラーニング適応機構として機能する。
我々は、ソースTSデータセット上でニューラルネットワークをトレーニングし、異なるターゲットTSデータセット上で再トレーニングすることなくデプロイできることを示します。
論文 参考訳(メタデータ) (2020-02-07T16:39:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。