論文の概要: Region-based Layout Analysis of Music Score Images
- arxiv url: http://arxiv.org/abs/2201.04214v1
- Date: Tue, 11 Jan 2022 21:59:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-13 14:57:24.572487
- Title: Region-based Layout Analysis of Music Score Images
- Title(参考訳): 音楽スコア画像の領域ベースレイアウト解析
- Authors: Francisco J. Castellanos, Carlos Garrido-Munoz, Antonio R\'ios-Vila,
Jorge Calvo-Zaragoza
- Abstract要約: この研究は、異なるニューラルアーキテクチャ、音楽文書タイプ、評価シナリオに関する実験的研究に焦点を当てている。
トレーニングデータの必要性も、新しい半合成データ生成技術の提案につながっている。
その結果, (i) モデルの選択とその性能は, 転写過程全体において重要であること, (ii) LAステージの評価に一般的に使用される指標はOMRシステムの最終性能と必ずしも相関しないこと, (iii) 提案したデータ生成技術により, ラベル付きデータの限られたセットで, 最新の結果が得られることが示唆された。
- 参考スコア(独自算出の注目度): 8.029049649310211
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The Layout Analysis (LA) stage is of vital importance to the correct
performance of an Optical Music Recognition (OMR) system. It identifies the
regions of interest, such as staves or lyrics, which must then be processed in
order to transcribe their content. Despite the existence of modern approaches
based on deep learning, an exhaustive study of LA in OMR has not yet been
carried out with regard to the precision of different models, their
generalization to different domains or, more importantly, their impact on
subsequent stages of the pipeline. This work focuses on filling this gap in
literature by means of an experimental study of different neural architectures,
music document types and evaluation scenarios. The need for training data has
also led to a proposal for a new semi-synthetic data generation technique that
enables the efficient applicability of LA approaches in real scenarios. Our
results show that: (i) the choice of the model and its performance are crucial
for the entire transcription process; (ii) the metrics commonly used to
evaluate the LA stage do not always correlate with the final performance of the
OMR system, and (iii) the proposed data-generation technique enables
state-of-the-art results to be achieved with a limited set of labeled data.
- Abstract(参考訳): レイアウト解析(LA)ステージは、光学音楽認識(OMR)システムの正しい性能において極めて重要である。
スタブや歌詞などの興味のある領域を識別し、その内容の書き起こしのために処理しなければならない。
ディープラーニングに基づく現代的なアプローチが存在するにもかかわらず、OMRにおけるLAの徹底的な研究は、異なるモデルの精度、異なるドメインへの一般化、あるいはより重要なのは、パイプラインのその後のステージへの影響に関してまだ行われていない。
この研究は、異なるニューラルアーキテクチャ、音楽文書タイプ、評価シナリオの実験的な研究により、文学におけるこのギャップを埋めることに焦点を当てている。
トレーニングデータの必要性は、実際のシナリオにおけるLAアプローチの効率的な適用を可能にする、新しい半合成データ生成技術の提案につながっている。
結果はこう示しています
(i)モデルの選択とその性能は、転写過程全体において不可欠である。
(ii)laステージを評価するために一般的に用いられる指標は、omrシステムの最終性能と必ずしも相関しない。
(iii)提案手法は,ラベル付きデータの限られたセットで最先端の成果を実現できる。
関連論文リスト
- Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - CLIPping the Deception: Adapting Vision-Language Models for Universal
Deepfake Detection [3.849401956130233]
広汎な深度検出のための最近の適応手法と組み合わせた事前学習型視覚言語モデル(VLM)の有効性について検討する。
ディープフェイク検出にCLIPを適用するために、単一のデータセット(ProGAN)のみを使用します。
シンプルで軽量なPrompt Tuningベースの適応戦略は、以前のSOTAアプローチよりも5.01% mAPと6.61%の精度で優れている。
論文 参考訳(メタデータ) (2024-02-20T11:26:42Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Data Augmentation techniques in time series domain: A survey and
taxonomy [0.20971479389679332]
時系列を扱うディープニューラルネットワークは、トレーニングで使用されるデータセットのサイズと一貫性に大きく依存する。
この研究は、すべての利用可能なアルゴリズムの概要を提供するために、この分野の最先端を体系的にレビューする。
本研究の究極的な目的は、この分野の将来の研究者を導くために、より良い結果をもたらす領域の進化と性能を概説することである。
論文 参考訳(メタデータ) (2022-06-25T17:09:00Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Learning Neural Models for Natural Language Processing in the Face of
Distributional Shift [10.990447273771592]
特定のデータセットでひとつのタスクを実行するための強力な神経予測器をトレーニングするNLPのパラダイムが、さまざまなアプリケーションで最先端のパフォーマンスを実現している。
データ分布が定常である、すなわち、トレーニングとテストの時間の両方で、データは固定された分布からサンプリングされる、という仮定に基づいて構築される。
この方法でのトレーニングは、人間が絶えず変化する情報の流れの中で学習し、操作できる方法と矛盾する。
データ分散がモデル寿命の経過とともにシフトすることが期待される実世界のユースケースに不適応である。
論文 参考訳(メタデータ) (2021-09-03T14:29:20Z) - Boosting the Generalization Capability in Cross-Domain Few-shot Learning
via Noise-enhanced Supervised Autoencoder [23.860842627883187]
我々は、新しいノイズ強調型教師付きオートエンコーダ(NSAE)を用いて、特徴分布のより広範なバリエーションを捉えるようモデルに教える。
NSAEは入力を共同で再構築し、入力のラベルと再構成されたペアを予測することによってモデルを訓練する。
また、NSAE構造を利用して、より適応性を高め、対象領域の分類性能を向上させる2段階の微調整手順を提案する。
論文 参考訳(メタデータ) (2021-08-11T04:45:56Z) - An Information-theoretic Approach to Distribution Shifts [9.475039534437332]
機械学習モデルを現実世界に安全にデプロイすることは、しばしば難しいプロセスである。
特定の地理的位置から得られたデータで訓練されたモデルは、他の場所で得られたデータでクエリされたときに失敗する傾向がある。
集団のサブセットに適合するニューラルネットワークは 選択バイアスを 与えるかもしれない
論文 参考訳(メタデータ) (2021-06-07T16:44:21Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - CDEvalSumm: An Empirical Study of Cross-Dataset Evaluation for Neural
Summarization Systems [121.78477833009671]
データセット間設定下での様々な要約モデルの性能について検討する。
異なるドメインの5つのデータセットに対する11の代表的な要約システムに関する包括的な研究は、モデルアーキテクチャと生成方法の影響を明らかにしている。
論文 参考訳(メタデータ) (2020-10-11T02:19:15Z) - Meta-learning framework with applications to zero-shot time-series
forecasting [82.61728230984099]
この研究は幅広いメタラーニングフレームワークを使って肯定的な証拠を提供する。
残余接続はメタラーニング適応機構として機能する。
我々は、ソースTSデータセット上でニューラルネットワークをトレーニングし、異なるターゲットTSデータセット上で再トレーニングすることなくデプロイできることを示します。
論文 参考訳(メタデータ) (2020-02-07T16:39:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。