Fugu-MT 論文翻訳(概要): Towards Efficient and Real-Time Piano Transcription Using Neural Autoregressive Models

論文の概要: Towards Efficient and Real-Time Piano Transcription Using Neural Autoregressive Models

arxiv url: http://arxiv.org/abs/2404.06818v1
Date: Wed, 10 Apr 2024 08:06:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-11 15:10:01.521761
Title: Towards Efficient and Real-Time Piano Transcription Using Neural Autoregressive Models
Title（参考訳）: ニューラル自己回帰モデルを用いた効率的なリアルタイムピアノ転写に向けて
Authors: Taegyun Kwon, Dasaem Jeong, Juhan Nam,
Abstract要約: 畳み込みリカレントニューラルネットワークのための新しいアーキテクチャを提案する。我々は、ピッチワイズLSTMを用いて、音符状態のシーケンスモデリングを改善する。我々は,提案モデルがMAESTROデータセットの音符精度の観点から,最先端モデルに匹敵することを示す。
参考スコア（独自算出の注目度）: 7.928003786376716
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In recent years, advancements in neural network designs and the availability of large-scale labeled datasets have led to significant improvements in the accuracy of piano transcription models. However, most previous work focused on high-performance offline transcription, neglecting deliberate consideration of model size. The goal of this work is to implement real-time inference for piano transcription while ensuring both high performance and lightweight. To this end, we propose novel architectures for convolutional recurrent neural networks, redesigning an existing autoregressive piano transcription model. First, we extend the acoustic module by adding a frequency-conditioned FiLM layer to the CNN module to adapt the convolutional filters on the frequency axis. Second, we improve note-state sequence modeling by using a pitchwise LSTM that focuses on note-state transitions within a note. In addition, we augment the autoregressive connection with an enhanced recursive context. Using these components, we propose two types of models; one for high performance and the other for high compactness. Through extensive experiments, we show that the proposed models are comparable to state-of-the-art models in terms of note accuracy on the MAESTRO dataset. We also investigate the effective model size and real-time inference latency by gradually streamlining the architecture. Finally, we conduct cross-data evaluation on unseen piano datasets and in-depth analysis to elucidate the effect of the proposed components in the view of note length and pitch range.
Abstract（参考訳）: 近年、ニューラルネットワークの設計の進歩と大規模ラベル付きデータセットの利用可能化により、ピアノの転写モデルの精度が大幅に向上している。しかし、これまでのほとんどの研究は、モデルサイズを考慮せず、高性能なオフライン文字起こしに重点を置いていた。本研究の目的は、ハイパフォーマンスと軽量さを両立させながら、ピアノの書き起こしのためのリアルタイム推論を実装することである。そこで本研究では,既存の自己回帰型ピアノ書き起こしモデルを再設計し,畳み込みリカレントニューラルネットワークのための新しいアーキテクチャを提案する。まず、周波数条件付きFiLM層をCNNモジュールに追加して、周波数軸上の畳み込みフィルタを適用することで、音響モジュールを拡張する。第二に、音符内の音符状態遷移に着目したピッチワイズLSTMを用いて、音符状態列モデリングを改善する。さらに,再帰的コンテキストの強化により自己回帰接続を増強する。これらのコンポーネントを用いて,高性能モデルと高コンパクトモデルという2種類のモデルを提案する。実験により,提案モデルがMAESTROデータセットの音符精度の観点から,最先端モデルに匹敵することを示す。また、アーキテクチャを徐々に合理化することで、有効モデルサイズとリアルタイムの推論遅延についても検討する。最後に,未確認のピアノデータセットのクロスデータ評価と詳細な分析を行い,音符長とピッチ範囲の観点から,提案成分の効果を解明する。

関連論文リスト

MesaNet: Sequence Modeling by Locally Optimal Test-Time Training [67.45211108321203]
我々は,最近提案されたMesa層の数値的に安定かつチャンクワイズ可能な並列化版を導入する。テストタイムの最適トレーニングにより、従来のRNNよりも言語モデリングの難易度が低く、ダウンストリームベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2025-06-05T16:50:23Z)
D3RM: A Discrete Denoising Diffusion Refinement Model for Piano Transcription [7.108713005834857]
離散拡散モデルを用いたピアノの書き起こしのための新しいアーキテクチャを提案する。提案手法は,F1スコアの点から,従来の拡散型ピアノ書き起こしモデルとベースラインモデルより優れていた。
論文参考訳（メタデータ） (2025-01-09T08:44:06Z)
sTransformer: A Modular Approach for Extracting Inter-Sequential and Temporal Information for Time-Series Forecasting [6.434378359932152]
既存のTransformerベースのモデルを,(1)モデル構造の変更,(2)入力データの変更の2つのタイプに分類する。我々は、シーケンシャル情報と時間情報の両方をフルにキャプチャするSequence and Temporal Convolutional Network(STCN)を導入する$textbfsTransformer$を提案する。我々は,線形モデルと既存予測モデルとを長期時系列予測で比較し,新たな成果を得た。
論文参考訳（メタデータ） (2024-08-19T06:23:41Z)
KFD-NeRF: Rethinking Dynamic NeRF with Kalman Filter [49.85369344101118]
KFD-NeRFは,Kalmanフィルタに基づく効率的かつ高品質な運動再構成フレームワークと統合された,新しい動的ニューラル放射場である。我々のキーとなる考え方は、動的放射場を、観測と予測という2つの知識源に基づいて時間的に異なる状態が推定される動的システムとしてモデル化することである。我々のKFD-NeRFは、同等の計算時間と最先端の視線合成性能で、徹底的な訓練を施した類似または優れた性能を示す。
論文参考訳（メタデータ） (2024-07-18T05:48:24Z)
Orchid: Flexible and Data-Dependent Convolution for Sequence Modeling [4.190836962132713]
本稿では,従来の注意機構の2次複雑さに対処する新しいアーキテクチャであるOrchidを紹介する。このアーキテクチャのコアには、新しいデータ依存のグローバル畳み込み層があり、入力シーケンスに条件付きカーネルを文脈的に適応させる。言語モデリングや画像分類など,複数の領域にまたがるモデルの評価を行い,その性能と汎用性を強調した。
論文参考訳（メタデータ） (2024-02-28T17:36:45Z)
Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文参考訳（メタデータ） (2024-02-07T13:41:53Z)
Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。 DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文参考訳（メタデータ） (2023-11-09T05:24:20Z)
Towards Improving Harmonic Sensitivity and Prediction Stability for Singing Melody Extraction [36.45127093978295]
本稿では,2つの仮定に基づいて,入力特徴量修正と訓練対象量修正を提案する。後続高調波に対するモデルの感度を高めるため、離散z変換を用いた複合周波数と周期表現を修正した。我々はこれらの修正を、MSNet、FTANet、ピアノの書き起こしネットワークから修正された新しいモデルPianoNetなど、いくつかのモデルに適用する。
論文参考訳（メタデータ） (2023-08-04T21:59:40Z)
Unsupervised Continual Semantic Adaptation through Neural Rendering [32.099350613956716]
セマンティックセグメンテーションの課題に対する連続的マルチシーン適応について検討する。本稿では,セグメンテーションモデルの予測を融合させることで,シーン毎にセマンティック・NeRFネットワークを訓練する。我々は,Voxelベースのベースラインと最先端の教師なしドメイン適応手法の両方より優れているScanNetに対するアプローチを評価した。
論文参考訳（メタデータ） (2022-11-25T09:31:41Z)
FiLM: Frequency improved Legendre Memory Model for Long-term Time Series Forecasting [22.821606402558707]
textbfFrequency textbfimproved textbfLegendre textbfMemory model(bf FiLM)を開発した。実験により,提案したFiLMは最先端モデルの精度を著しく向上することが示された。
論文参考訳（メタデータ） (2022-05-18T12:37:54Z)
Anomaly Detection of Time Series with Smoothness-Inducing Sequential Variational Auto-Encoder [59.69303945834122]
Smoothness-Inducing Sequential Variational Auto-Encoder (SISVAE) モデルを提案する。我々のモデルは、フレキシブルニューラルネットワークを用いて各タイムスタンプの平均と分散をパラメータ化する。合成データセットと公開実世界のベンチマークの両方において,本モデルの有効性を示す。
論文参考訳（メタデータ） (2021-02-02T06:15:15Z)
Polyphonic Piano Transcription Using Autoregressive Multi-State Note Model [6.65616155956618]
単一損失関数を持つソフトマックス出力として複数の音符状態が予測される統一ニューラルネットワークアーキテクチャを提案する。提案モデルでは,パラメータの少ない最先端技術に匹敵する性能を実現する。
論文参考訳（メタデータ） (2020-10-02T17:03:19Z)
Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。 CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文参考訳（メタデータ） (2020-06-12T15:07:08Z)
Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2020-02-21T05:00:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。