論文の概要: Exploring System Adaptations For Minimum Latency Real-Time Piano Transcription
- arxiv url: http://arxiv.org/abs/2509.07586v1
- Date: Tue, 09 Sep 2025 10:52:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.273223
- Title: Exploring System Adaptations For Minimum Latency Real-Time Piano Transcription
- Title(参考訳): 最小レイテンシリアルタイムピアノ転写のためのシステム適応の探索
- Authors: Patricia Hu, Silvan David Peter, Jan Schlüter, Gerhard Widmer,
- Abstract要約: 本研究では,現在最先端のオンライン書き起こしモデルが,リアルタイムのピアノ書き起こしに適用できるかどうかについて検討する。
具体的には、全ての非因果処理を排除し、共有計算による計算負荷を削減する。
我々は、厳密な因果処理による転写精度の低下と、前処理遅延と予測精度のトレードオフを見出した。
- 参考スコア(独自算出の注目度): 7.124736158080939
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in neural network design and the availability of large-scale labeled datasets have driven major improvements in piano transcription. Existing approaches target either offline applications, with no restrictions on computational demands, or online transcription, with delays of 128-320 ms. However, most real-time musical applications require latencies below 30 ms. In this work, we investigate whether and how the current state-of-the-art online transcription model can be adapted for real-time piano transcription. Specifically, we eliminate all non-causal processing, and reduce computational load through shared computations across core model components and variations in model size. Additionally, we explore different pre- and postprocessing strategies, and related label encoding schemes, and discuss their suitability for real-time transcription. Evaluating the adaptions on the MAESTRO dataset, we find a drop in transcription accuracy due to strictly causal processing as well as a tradeoff between the preprocessing latency and prediction accuracy. We release our system as a baseline to support researchers in designing models towards minimum latency real-time transcription.
- Abstract(参考訳): ニューラルネットワーク設計の進歩と大規模ラベル付きデータセットが利用可能になったことで、ピアノの書き起こしに大きな改善がもたらされた。
既存の手法では、128~320msの遅延を伴わないオフラインアプリケーションと128~320msの遅延を伴わないオンライン書き起こしを対象とするが、ほとんどのリアルタイム音楽アプリケーションは30ms未満のレイテンシを必要とする。本研究では、現在最先端のオンライン書き起こしモデルがリアルタイムピアノの書き起こしに適用できるかどうかを調査する。
具体的には、全ての非因果処理を排除し、コアモデルコンポーネント間の共有計算とモデルサイズの変化による計算負荷を削減する。
さらに,前処理と後処理の異なる手法,および関連ラベル符号化方式について検討し,リアルタイムの転写に適合する可能性について考察する。
MAESTROデータセットへの適応を評価すると、厳密な因果処理による転写精度の低下と、前処理遅延と予測精度のトレードオフが分かる。
我々は,最小遅延リアルタイム文字起こしモデルの設計において,研究者を支援するベースラインとしてシステムをリリースする。
関連論文リスト
- Towards Efficient and Real-Time Piano Transcription Using Neural Autoregressive Models [7.928003786376716]
畳み込みリカレントニューラルネットワークのための新しいアーキテクチャを提案する。
我々は、ピッチワイズLSTMを用いて、音符状態のシーケンスモデリングを改善する。
我々は,提案モデルがMAESTROデータセットの音符精度の観点から,最先端モデルに匹敵することを示す。
論文 参考訳(メタデータ) (2024-04-10T08:06:15Z) - Test-Time Model Adaptation with Only Forward Passes [68.11784295706995]
テストタイム適応は、トレーニング済みのモデルを、潜在的に分布シフトのある未確認テストサンプルに適応させるのに有効であることが証明されている。
テスト時間フォワード最適化適応法(FOA)を提案する。
FOAは量子化された8ビットのViTで動作し、32ビットのViTで勾配ベースのTENTより優れ、ImageNet-Cで最大24倍のメモリ削減を実現する。
論文 参考訳(メタデータ) (2024-04-02T05:34:33Z) - Timbre-Trap: A Low-Resource Framework for Instrument-Agnostic Music
Transcription [19.228155694144995]
Timbre-Trapは、音楽の書き起こしと音声の再構成を統合する新しいフレームワークである。
我々は1つのオートエンコーダを訓練し、ピッチサリエンスを同時に推定し、複雑なスペクトル係数を再構成する。
このフレームワークは、最先端の楽器に依存しない書き起こし手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-09-27T15:19:05Z) - Incrementally-Computable Neural Networks: Efficient Inference for
Dynamic Inputs [75.40636935415601]
ディープラーニングは、センサーデータやユーザ入力などの動的入力を効率的に処理するという課題に直面していることが多い。
インクリメンタルな計算アプローチを採用し、入力の変化に応じて計算を再利用する。
本稿では,この手法をトランスフォーマーアーキテクチャに適用し,修正入力の分数に比例した複雑性を持つ効率的なインクリメンタル推論アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-27T16:30:27Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z) - Teaching BERT to Wait: Balancing Accuracy and Latency for Streaming
Disfluency Detection [3.884530687475798]
BERTをベースとしたシーケンスタギングモデルは,リアルタイムに分散を検出することができる。
モデルは、インクリメンタルな拡散検出に関する最近の研究と比較して、最先端のレイテンシと安定性のスコアを得る。
論文 参考訳(メタデータ) (2022-05-02T02:13:24Z) - FastEmit: Low-latency Streaming ASR with Sequence-level Emission
Regularization [78.46088089185156]
ストリーム自動音声認識(ASR)は、仮説化された単語を可能な限り迅速かつ正確に出力することを目的としている。
既存のアプローチでは、シーケンストランスデューサモデルにおいて、トーケン単位またはフレーム単位の確率予測を演算することで、発光遅延をペナルティ化する。
本稿では,訓練用トランスデューサモデルにおいて,シーケンス毎の確率に遅延正規化を直接適用する,FastEmitというシーケンスレベルのエミッション正規化手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T17:05:01Z) - Understanding Self-Training for Gradual Domain Adaptation [107.37869221297687]
段階的なドメイン適応は、対象領域へ徐々にシフトするラベルのないデータのみを与えられたソースドメインで訓練された初期分類器を適応させることが目的である。
目標領域への直接適応が非有界誤差をもたらすような設定下において、段階的なシフトを伴う自己学習の誤差に対する最初の非無空上界を証明した。
この理論解析はアルゴリズムの洞察を導き、無限のデータを持つ場合でも正規化とラベルのシャープ化が不可欠であることを強調し、より小さなワッサーシュタイン無限距離のシフトに対して自己学習が特にうまく働くことを示唆している。
論文 参考訳(メタデータ) (2020-02-26T08:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。