論文の概要: Playing Technique Detection by Fusing Note Onset Information in Guzheng
Performance
- arxiv url: http://arxiv.org/abs/2209.08774v1
- Date: Mon, 19 Sep 2022 06:02:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 19:47:52.372177
- Title: Playing Technique Detection by Fusing Note Onset Information in Guzheng
Performance
- Title(参考訳): guzhengパフォーマンスにおける音符入力情報を利用した演奏技術検出
- Authors: Dichucheng Li, Yulun Wu, Qinyu Li, Jiahao Zhao, Yi Yu, Fan Xia, Wei Li
- Abstract要約: 完全畳み込みネットワークを用いたエンドツーエンドのグジエン演奏技術検出システムを提案する。
提案手法は, フレームレベルの精度87.97%, ノートレベルのF1スコア80.76%を達成し, 既存の作品のマージンを大きく上回っている。
- 参考スコア(独自算出の注目度): 10.755276589673434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Guzheng is a kind of traditional Chinese instruments with diverse playing
techniques. Instrument playing techniques (IPT) play an important role in
musical performance. However, most of the existing works for IPT detection show
low efficiency for variable-length audio and provide no assurance in the
generalization as they rely on a single sound bank for training and testing. In
this study, we propose an end-to-end Guzheng playing technique detection system
using Fully Convolutional Networks that can be applied to variable-length
audio. Because each Guzheng playing technique is applied to a note, a dedicated
onset detector is trained to divide an audio into several notes and its
predictions are fused with frame-wise IPT predictions. During fusion, we add
the IPT predictions frame by frame inside each note and get the IPT with the
highest probability within each note as the final output of that note. We
create a new dataset named GZ_IsoTech from multiple sound banks and real-world
recordings for Guzheng performance analysis. Our approach achieves 87.97% in
frame-level accuracy and 80.76% in note-level F1-score, outperforming existing
works by a large margin, which indicates the effectiveness of our proposed
method in IPT detection.
- Abstract(参考訳): グジーン(Guzheng)は、中国伝統楽器の一種で、様々な演奏技法がある。
楽器演奏技術(IPT)は演奏において重要な役割を果たしている。
しかし、IPT検出のための既存の研究の多くは、可変長オーディオの効率が低く、訓練や試験に単一サウンドバンクに依存するため、一般化の保証は得られない。
本研究では,可変長音声に適用可能な完全畳み込みネットワークを用いたエンドツーエンドのグジエン演奏技術検出システムを提案する。
各guzheng演奏技法を音符に適用するため、専用のオンセット検出器を訓練して音声を複数の音符に分割し、その予測をフレーム単位でipt予測と融合させる。
融合中、各音符内のフレームごとにIPT予測フレームを追加し、その音符の最終出力として各音符内で最も高い確率でIPTを得る。
我々は、複数のサウンドバンクからGZ_IsoTechという新しいデータセットを作成し、グジーンのパフォーマンス分析のための実世界の録音を行う。
提案手法は, フレームレベルの精度87.97%, ノートレベルのF1スコア80.76%を達成し, IPT検出における提案手法の有効性を示す。
関連論文リスト
- TapToTab : Video-Based Guitar Tabs Generation using AI and Audio Analysis [0.0]
本稿では,ディープラーニング,特にリアルタイムフレットボード検出のためのYOLOモデルを活用した高度なアプローチを提案する。
実験の結果,従来の手法に比べて検出精度とロバスト性は著しく向上した。
本稿では,ビデオ録音からギタータブを自動生成することで,ギター指導に革命をもたらすことを目的とする。
論文 参考訳(メタデータ) (2024-09-13T08:17:15Z) - Toward a More Complete OMR Solution [49.74172035862698]
光音楽認識は、音楽の表記をデジタル形式に変換することを目的としている。
OMRに取り組む1つのアプローチは、画像内の視覚音楽の表記要素を最初に検出するマルチステージパイプラインである。
YOLOv8に基づく音楽オブジェクト検出器を導入し,検出性能を向上する。
第2に、検出出力に基づいて記法組立段階を完了する教師付きトレーニングパイプラインを導入する。
論文 参考訳(メタデータ) (2024-08-31T01:09:12Z) - Frequency-Aware Deepfake Detection: Improving Generalizability through
Frequency Space Learning [81.98675881423131]
この研究は、目に見えないディープフェイク画像を効果的に識別できるユニバーサルディープフェイク検出器を開発するという課題に対処する。
既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。
本稿では、周波数領域学習を中心にしたFreqNetと呼ばれる新しい周波数認識手法を導入し、ディープフェイク検出器の一般化性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-03-12T01:28:00Z) - DITTO: Diffusion Inference-Time T-Optimization for Music Generation [49.90109850026932]
Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。
我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:10:10Z) - MERTech: Instrument Playing Technique Detection Using Self-Supervised
Pretrained Model With Multi-Task Finetuning [17.307289537499184]
本稿では,大規模未ラベル音楽データに事前学習した自己教師付き学習モデルを適用し,IPT検出タスクに微調整する。
提案手法は, フレームレベルとイベントレベルの両方のメトリクスにおいて, 複数のIMTベンチマークデータセットにおいて, 従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-10-15T15:00:00Z) - Frame-Level Multi-Label Playing Technique Detection Using Multi-Scale
Network and Self-Attention Mechanism [6.2680838592065715]
フレームレベルのマルチラベル分類問題を定式化し,それを中国の弦楽器Guzhengに適用する。
異なるIPTの長さが異なるため,マルチスケールネットワークと自己注意を用いた新しい手法を提案する。
提案手法は, IPT検出における有効性を示すとともに, 既存の成果よりも高い性能を示す。
論文 参考訳(メタデータ) (2023-03-23T13:52:42Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Audio Deepfake Detection Based on a Combination of F0 Information and
Real Plus Imaginary Spectrogram Features [51.924340387119415]
ASVspoof 2019 LAデータセットの実験結果から,提案手法はオーディオディープフェイク検出に非常に有効であることがわかった。
提案方式は音声深度検出作業に非常に有効であり,ほぼ全てのシステムにまたがる等価誤差率(EER)が0.43%に達する。
論文 参考訳(メタデータ) (2022-08-02T02:46:16Z) - A Lightweight Instrument-Agnostic Model for Polyphonic Note
Transcription and Multipitch Estimation [6.131772929312604]
楽器の書き起こしのための軽量ニューラルネットワークを提案する。
我々のモデルは、フレームワイドのオンセット、乗算、ノートのアクティベーションを共同で予測するように訓練されている。
ベンチマークの結果、我々のシステムのメモ推定は、同等のベースラインよりもかなり優れていることが示されています。
論文 参考訳(メタデータ) (2022-03-18T12:07:36Z) - TONet: Tone-Octave Network for Singing Melody Extraction from Polyphonic
Music [43.17623332544677]
TONetは、トーンとオクターブの両方の知覚を改善するプラグアンドプレイモデルである。
本稿では,高調波を明示的にグループ化する改良された入力表現Tone-CFPを提案する。
第3に,最終的なサリエンス特徴写像を改善するために,トーンオクターブ融合機構を提案する。
論文 参考訳(メタデータ) (2022-02-02T10:55:48Z) - Effects of Word-frequency based Pre- and Post- Processings for Audio
Captioning [49.41766997393417]
音響シーン・イベントの検出・分類のタスク6(自動音声キャプション)に使用したシステム(DCASE)2020 Challengeは,音声キャプションのためのデータ拡張,マルチタスク学習,ポストプロセッシングという3つの要素を組み合わせる。
このシステムは評価スコアが最も高いが、個々の要素のどれがパーフォーマンスに最も貢献したかはまだ明らかになっていない。
論文 参考訳(メタデータ) (2020-09-24T01:07:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。