論文の概要: Passage Summarization with Recurrent Models for Audio-Sheet Music
Retrieval
- arxiv url: http://arxiv.org/abs/2309.12111v1
- Date: Thu, 21 Sep 2023 14:30:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 14:57:59.896341
- Title: Passage Summarization with Recurrent Models for Audio-Sheet Music
Retrieval
- Title(参考訳): 繰り返しモデルを用いた楽曲検索のためのパッセージ要約
- Authors: Luis Carvalho and Gerhard Widmer
- Abstract要約: クロスモーダル音楽検索は、シート音楽画像とオーディオ録音を接続することができる。
そこで本研究では,音声と楽譜の長いパスを要約するために,共同埋め込みを学習するクロスモーダル・リカレント・ネットワークを提案する。
合成および実ピアノデータとスコアについて多数の実験を行い、提案手法が全ての可能な構成においてより正確な検索につながることを示す。
- 参考スコア(独自算出の注目度): 4.722882736419499
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many applications of cross-modal music retrieval are related to connecting
sheet music images to audio recordings. A typical and recent approach to this
is to learn, via deep neural networks, a joint embedding space that correlates
short fixed-size snippets of audio and sheet music by means of an appropriate
similarity structure. However, two challenges that arise out of this strategy
are the requirement of strongly aligned data to train the networks, and the
inherent discrepancies of musical content between audio and sheet music
snippets caused by local and global tempo differences. In this paper, we
address these two shortcomings by designing a cross-modal recurrent network
that learns joint embeddings that can summarize longer passages of
corresponding audio and sheet music. The benefits of our method are that it
only requires weakly aligned audio-sheet music pairs, as well as that the
recurrent network handles the non-linearities caused by tempo variations
between audio and sheet music. We conduct a number of experiments on synthetic
and real piano data and scores, showing that our proposed recurrent method
leads to more accurate retrieval in all possible configurations.
- Abstract(参考訳): クロスモーダル音楽検索の多くの応用は、楽譜画像とオーディオ録音の接続に関連している。
これに対する典型的な最近のアプローチは、ディープニューラルネットワークを通じて、適切な類似性構造を用いて、オーディオと楽譜の短い固定サイズのスニペットを関連付けるジョイント埋め込み空間を学ぶことである。
しかし、この戦略から生じる2つの課題は、ネットワークをトレーニングするための強力な整列データの必要性と、局地的・グローバル的なテンポ的差異に起因するオーディオと楽譜スニペット間の音楽内容の相違である。
本稿では,これら2つの欠点に対処し,対応するオーディオや楽譜の長いパスを要約できる結合埋め込みを学習するクロスモーダルリカレントネットワークを設計する。
この方法の利点は、弱結合のオーディオシート音楽ペアのみを必要とすることと、リカレントネットワークが、オーディオとシート音楽のテンポのバリエーションに起因する非線形性を扱うことである。
合成および実ピアノデータとスコアについて多数の実験を行い、提案手法が全ての可能な構成においてより正確な検索につながることを示す。
関連論文リスト
- LARP: Language Audio Relational Pre-training for Cold-Start Playlist Continuation [49.89372182441713]
マルチモーダルコールドスタートプレイリスト継続モデルであるLARPを導入する。
我々のフレームワークはタスク固有の抽象化の段階を増大させており、イントラトラック(音声)コントラスト損失、トラックトラックコントラスト損失、トラックプレイリストコントラスト損失である。
論文 参考訳(メタデータ) (2024-06-20T14:02:15Z) - Carnatic Raga Identification System using Rigorous Time-Delay Neural Network [0.0]
大規模な機械学習に基づくRaga識別は、カルナティック音楽の背後にある計算的側面において、いまだに非自明な問題である。
本稿では,離散フーリエ変換と三角フィルタを用いて音符のカスタムビンを生成するステップの組み合わせを用いて,入力音を解析する。
このプログラムの目的は、より広い範囲のオーディオクリップを、よりシュルーティス、ラガ、よりバックグラウンドノイズで効果的かつ効率的にラベル付けできるようにすることである。
論文 参考訳(メタデータ) (2024-05-25T01:31:58Z) - STELLA: Continual Audio-Video Pre-training with Spatio-Temporal Localized Alignment [61.83340833859382]
様々な音声・ビデオの意味を時間とともに継続的に学習することは、音声関連推論タスクに不可欠である。
これは非時間的問題であり、オーディオとビデオのペア間のスパース時間相関と、オーディオとビデオの関係を忘れるマルチモーダル相関オーバーライトという2つの重要な課題を提起する。
本稿では,2つの新しいアイデアを取り入れた連続的なオーディオビデオ事前学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-12T10:50:21Z) - Towards Robust and Truly Large-Scale Audio-Sheet Music Retrieval [4.722882736419499]
クロスモーダル・ディープ・ラーニング(英語版)は、2つの異なるモーダル(オーディオと楽譜)を繋ぐジョイント埋め込み空間を学習するために用いられる。
過去数年間、この領域は着実に改善されてきたが、多くのオープンな問題が依然としてこの手法の大規模採用を妨げている。
実シナリオにおけるロバストで大規模なクロスモーダル音楽検索への道のりの主な課題を同定する。
論文 参考訳(メタデータ) (2023-09-21T15:11:16Z) - Self-Supervised Contrastive Learning for Robust Audio-Sheet Music
Retrieval Systems [3.997809845676912]
自己指導型コントラスト学習は、実際の音楽コンテンツからの注釈付きデータの不足を軽減することができることを示す。
クロスモーダルなピース識別の高レベルなタスクにスニペットを埋め込む。
本研究では,実際の音楽データが存在する場合,検索品質が30%から100%に向上することが観察された。
論文 参考訳(メタデータ) (2023-09-21T14:54:48Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - MSTRE-Net: Multistreaming Acoustic Modeling for Automatic Lyrics
Transcription [8.669338893753885]
本稿では,自動翻訳(ALT)研究にいくつかの貢献を行う。
我々の主な貢献はMSTRE-Netと呼ばれるMultistreaming Time-Delay Neural Network (MTDNN)アーキテクチャの新しい変種である。
本稿では,ALTで使用されている既存のデータセットと比較して,かなり大きなサイズと高い音楽的変動性を持つ新しいテストセットを提案する。
論文 参考訳(メタデータ) (2021-08-05T13:59:11Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z) - Structure-Aware Audio-to-Score Alignment using Progressively Dilated
Convolutional Neural Networks [8.669338893753885]
音楽演奏と楽譜の間の構造的差異の同定は、音声とスコアのアライメントにおいて難しいが不可欠なステップである。
本稿では、進化的に拡張された畳み込みニューラルネットワークを用いて、そのような違いを検出する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-01-31T05:14:58Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。