論文の概要: Residual Recurrent CRNN for End-to-End Optical Music Recognition on
Monophonic Scores
- arxiv url: http://arxiv.org/abs/2010.13418v2
- Date: Wed, 4 Aug 2021 13:18:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 19:14:36.323169
- Title: Residual Recurrent CRNN for End-to-End Optical Music Recognition on
Monophonic Scores
- Title(参考訳): モノラルスコアを用いたエンド・ツー・エンド光音楽認識のための残響CRNN
- Authors: Aozhi Liu, Lipei Zhang, Yaqi Mei, Baoqiang Han, Zifeng Cai, Zhaohua
Zhu, Jing Xiao
- Abstract要約: 本稿では、Residual Recurrent Convolutional Neural NetworkのブロックとRecurrent-Decoder Networkを組み合わせた革新的なフレームワークを提案する。
実験結果は、CAMERA-PRIMUSと呼ばれる公開データセットに対してベンチマークされる。
- 参考スコア(独自算出の注目度): 8.829800916216275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the challenges of the Optical Music Recognition task is to transcript
the symbols of the camera-captured images into digital music notations.
Previous end-to-end model which was developed as a Convolutional Recurrent
Neural Network does not explore sufficient contextual information from full
scales and there is still a large room for improvement. We propose an
innovative framework that combines a block of Residual Recurrent Convolutional
Neural Network with a recurrent Encoder-Decoder network to map a sequence of
monophonic music symbols corresponding to the notations present in the image.
The Residual Recurrent Convolutional block can improve the ability of the model
to enrich the context information. The experiment results are benchmarked
against a publicly available dataset called CAMERA-PRIMUS, which demonstrates
that our approach surpass the state-of-the-art end-to-end method using
Convolutional Recurrent Neural Network.
- Abstract(参考訳): 光音楽認識タスクの課題の1つは、カメラが捉えた画像のシンボルをデジタル音楽表記に転写することである。
畳み込み型リカレントニューラルネットワークとして開発された従来のエンドツーエンドモデルは、フルスケールで十分なコンテキスト情報を探索できず、改善の余地も大きい。
本稿では,残差再帰畳み込みニューラルネットワークのブロックと再帰エンコーダ・デコーダネットワークを組み合わせて,画像中の表記に対応するモノフォニック音楽記号列をマッピングする革新的な枠組みを提案する。
Residual Recurrent Convolutionalブロックは、コンテキスト情報を強化するモデルの能力を向上させることができる。
実験結果は、CAMERA-PRIMUSと呼ばれる公開データセットに対してベンチマークされ、私たちのアプローチが畳み込みリカレントニューラルネットワークを用いた最先端のエンド・ツー・エンドの手法を上回ることを示す。
関連論文リスト
- $ε$-VAE: Denoising as Visual Decoding [61.29255979767292]
生成モデリングにおいて、トークン化は複雑なデータをコンパクトで構造化された表現に単純化し、より効率的で学習可能な空間を作り出す。
現在の視覚的トークン化手法は従来のオートエンコーダフレームワークに依存しており、エンコーダはデータを潜在表現に圧縮し、デコーダは元の入力を再構築する。
具体的には,デコーダを拡散処理に置き換え,ノイズを反復的に除去して元のイメージを復元し,エンコーダが提供する潜伏者によって誘導される。
再建(rFID)と生成品質(ジェネレーション品質)の両面からアプローチを評価する。
論文 参考訳(メタデータ) (2024-10-05T08:27:53Z) - An Image captioning algorithm based on the Hybrid Deep Learning
Technique (CNN+GRU) [0.0]
本稿では,CNN-GRUエンコーダデコーダのキャプション・ツー・イメージ・コンストラクタ用デコーダフレームワークを提案する。
意味的なコンテキストと時間の複雑さを考慮に入れます。
提案モデルでは,画像キャプションのための最先端のLSTM-A5モデルよりも,時間的複雑性と精度が優れている。
論文 参考訳(メタデータ) (2023-01-06T10:00:06Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - Over-and-Under Complete Convolutional RNN for MRI Reconstruction [57.95363471940937]
MR画像再構成のための最近のディープラーニングに基づく手法は、通常、汎用的なオートエンコーダアーキテクチャを利用する。
OUCR(Over-and-Under Complete Convolu?tional Recurrent Neural Network)を提案する。
提案手法は, トレーニング可能なパラメータの少ない圧縮されたセンシングと, 一般的なディープラーニングに基づく手法に対して, 大幅な改善を実現する。
論文 参考訳(メタデータ) (2021-06-16T15:56:34Z) - Analysis of Convolutional Decoder for Image Caption Generation [1.2183405753834562]
画像キャプション生成などのシーケンスモデリングタスクのために畳み込みニューラルネットワークが提案されている。
リカレントニューラルネットワークベースのデコーダとは異なり、画像キャプション用の畳み込みデコーダは一般的にネットワーク深度の増加の恩恵を受けない。
コンボリューショナルデコーダは,最大15語までの文を含む小長の文を用いて訓練した場合のみ,リカレントデコーダに匹敵する性能を示す。
論文 参考訳(メタデータ) (2021-03-08T17:25:31Z) - Comparative evaluation of CNN architectures for Image Caption Generation [1.2183405753834562]
2つの人気のある画像キャプチャ生成フレームワークで17種類の畳み込みニューラルネットワークを評価した。
我々は、畳み込みニューラルネットワークのモデルの複雑さをパラメータ数で測定し、オブジェクト認識タスクにおけるモデルの精度は、必ずしも画像キャプション生成タスクの機能抽出に対する効果と相関するとは限らないことを観察する。
論文 参考訳(メタデータ) (2021-02-23T05:43:54Z) - Learning Deep Interleaved Networks with Asymmetric Co-Attention for
Image Restoration [65.11022516031463]
本稿では,高品質(本社)画像再構成のために,異なる状態の情報をどのように組み合わせるべきかを学習するディープインターリーブドネットワーク(DIN)を提案する。
本稿では,各インターリーブノードにアタッチメントされた非対称なコアテンション(AsyCA)を提案し,その特性依存性をモデル化する。
提案したDINはエンドツーエンドで訓練でき、様々な画像復元タスクに適用できる。
論文 参考訳(メタデータ) (2020-10-29T15:32:00Z) - Identity Enhanced Residual Image Denoising [61.75610647978973]
我々は、アイデンティティマッピングモジュールのチェーンと、画像の復号化のための残像アーキテクチャの残像からなる、完全な畳み込みネットワークモデルを学ぶ。
提案するネットワークは,従来の最先端・CNNアルゴリズムよりも極めて高い数値精度と画像品質を実現している。
論文 参考訳(メタデータ) (2020-04-26T04:52:22Z) - Deblurring using Analysis-Synthesis Networks Pair [6.09170287691728]
ブラインド画像の劣化は、現代のニューラルネットワークにとって難しい問題である。
そこで我々は,デブロワーリングネットワークを,そのボケを推定する解析ネットワークに分割する新たなアーキテクチャと,このカーネルを用いて画像をデブロワーする合成ネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-06T19:32:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。