論文の概要: Pay Attention to the Keys: Visual Piano Transcription Using Transformers
- arxiv url: http://arxiv.org/abs/2411.09037v2
- Date: Fri, 04 Jul 2025 14:46:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.139275
- Title: Pay Attention to the Keys: Visual Piano Transcription Using Transformers
- Title(参考訳): キーに対する支払い:トランスフォーマーを用いたヴィジュアルピアノ転写
- Authors: Uros Zivanovic, Ivan Pilkov, Carlos Eduardo Cancino-Chacón,
- Abstract要約: 視覚ピアノ文字起こし(VPT)は、視覚情報のみからピアノ演奏の記号表現を得るタスクである。
本稿では、畳み込みニューラルネットワーク(CNN)に基づく従来の手法を超越した視覚変換器(ViT)に基づくVPTシステムを提案する。
提案システムは,PanoYTデータセットのオンセット予測とR3データセットのオンセットとオフセットの両方において,最先端の処理性能に優れることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual piano transcription (VPT) is the task of obtaining a symbolic representation of a piano performance from visual information alone (e.g., from a top-down video of the piano keyboard). In this work we propose a VPT system based on the vision transformer (ViT), which surpasses previous methods based on convolutional neural networks (CNNs). Our system is trained on the newly introduced R3 dataset, consisting of ca.~31 hours of synchronized video and MIDI recordings of piano performances. We additionally introduce an approach to predict note offsets, which has not been previously explored in this context. We show that our system outperforms the state-of-the-art on the PianoYT dataset for onset prediction and on the R3 dataset for both onsets and offsets.
- Abstract(参考訳): ヴィジュアルピアノ文字起こし(VPT)は、視覚情報のみからピアノ演奏の記号表現を得るタスクである(例えば、ピアノキーボードのトップダウンビデオから)。
本研究では,視覚変換器(ViT)に基づくVPTシステムを提案し,畳み込みニューラルネットワーク(CNN)に基づく従来の手法を超越している。
本システムは,新たに導入したR3データセット(ca)に基づいて学習する。
同期ビデオとMIDIによるピアノ演奏の録音は約31時間。
また,この文脈ではこれまで検討されていなかったノートオフセットの予測手法も導入した。
提案システムは,PanoYTデータセットのオンセット予測とR3データセットのオンセットとオフセットの両方において,最先端の処理性能に優れることを示す。
関連論文リスト
- Cross-Modal Learning for Music-to-Music-Video Description Generation [22.27153318775917]
音楽-音楽-ビデオ(MV)生成は、音楽とビデオのモダリティに固有の違いがあるため、難しい課題である。
本研究では,MV記述生成タスクに着目し,包括的パイプラインを提案する。
新たに構築した音楽-MV記述データセット上で,既存の学習済みマルチモーダルモデルを微調整する。
論文 参考訳(メタデータ) (2025-03-14T08:34:28Z) - TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。
モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。
このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - AMT-APC: Automatic Piano Cover by Fine-Tuning an Automatic Music Transcription Model [0.0]
AMT-APCと呼ばれる学習アルゴリズムを提案する。
実験により, AMT-APCモデルは既存のどのモデルよりも正確なトラックを再現できることを示した。
論文 参考訳(メタデータ) (2024-09-21T09:51:22Z) - Sheet Music Transformer: End-To-End Optical Music Recognition Beyond Monophonic Transcription [13.960714900433269]
Sheet Music Transformer(シート・ミュージック・トランスフォーマー)は、モノフォニック・ストラテジーのみに頼らずに複雑な楽譜を転写するために設計された最初のエンドツーエンドのOMRモデルである。
我々のモデルは2つのポリフォニック音楽データセットでテストされており、これらの複雑な音楽構造を効果的に扱えることが証明されている。
論文 参考訳(メタデータ) (2024-02-12T11:52:21Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。
ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。
予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文 参考訳(メタデータ) (2023-10-06T21:45:05Z) - Multitrack Music Transcription with a Time-Frequency Perceiver [6.617487928813374]
マルチトラック音楽の書き起こしは、複数の楽器の音符に入力された音声を同時に書き起こすことを目的としている。
本稿では,マルチトラック転写のための音声入力の時間周波数表現をモデル化する,新しいディープニューラルネットワークアーキテクチャPerceiver TFを提案する。
論文 参考訳(メタデータ) (2023-06-19T08:58:26Z) - Zorro: the masked multimodal transformer [68.99684436029884]
ゾロ(Zorro)は、トランスフォーマー内の各モードからの入力をどのようにルーティングするかを制御するためにマスクを使用するテクニックである。
対照的な事前学習により、Zorroはマルチモーダルタスクの最も関連性の高いベンチマークで最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2023-01-23T17:51:39Z) - Vision Transformers are Parameter-Efficient Audio-Visual Learners [95.59258503297195]
本稿では、事前学習したVTをオーディオ視覚タスクに適応させる潜在型オーディオ視覚ハイブリッド(LAVISH)アダプタを提案する。
提案手法は,様々な視覚的タスクにおいて,競争力や性能の向上を実現する。
論文 参考訳(メタデータ) (2022-12-15T17:31:54Z) - TVLT: Textless Vision-Language Transformer [89.31422264408002]
テキストレス・ビジョン・ランゲージ変換器 (TVLT) では, 同種変換器ブロックが生の視覚・音声入力を行う。
TVLTはテキストベースの様々なマルチモーダルタスクに匹敵するパフォーマンスを実現している。
その結果,低レベルの視覚・音声信号から,コンパクトで効率的な視覚言語表現を学習できる可能性が示唆された。
論文 参考訳(メタデータ) (2022-09-28T15:08:03Z) - Polyphonic pitch detection with convolutional recurrent neural networks [0.0]
本研究では,ConvLSTMによるMIDIに音声をストリームするオンラインポリフォニックピッチ検出システムについて概説する。
本システムでは,2007年のMIREXマルチF0開発セットにおいて,ベースーン,クラリネット,フルート,ホルン,オーボエのアンサンブルを83%のF値で測定した。
論文 参考訳(メタデータ) (2022-02-04T12:58:02Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z) - Optical Music Recognition: State of the Art and Major Challenges [0.0]
光音楽認識(OMR)は、楽譜を機械可読形式に変換することを目的としている。
書き起こされたコピーは、ミュージシャンが楽譜の写真を撮って作曲、演奏、編集を行えるようにする。
近年,従来のコンピュータビジョン技術から深層学習手法への移行が進んでいる。
論文 参考訳(メタデータ) (2020-06-14T12:40:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。