論文の概要: Towards Robust and Truly Large-Scale Audio-Sheet Music Retrieval
- arxiv url: http://arxiv.org/abs/2309.12158v1
- Date: Thu, 21 Sep 2023 15:11:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 14:36:35.553248
- Title: Towards Robust and Truly Large-Scale Audio-Sheet Music Retrieval
- Title(参考訳): ロバスト・完全大規模オーディオシート音楽検索に向けて
- Authors: Luis Carvalho and Gerhard Widmer
- Abstract要約: クロスモーダル・ディープ・ラーニング(英語版)は、2つの異なるモーダル(オーディオと楽譜)を繋ぐジョイント埋め込み空間を学習するために用いられる。
過去数年間、この領域は着実に改善されてきたが、多くのオープンな問題が依然としてこの手法の大規模採用を妨げている。
実シナリオにおけるロバストで大規模なクロスモーダル音楽検索への道のりの主な課題を同定する。
- 参考スコア(独自算出の注目度): 4.722882736419499
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A range of applications of multi-modal music information retrieval is centred
around the problem of connecting large collections of sheet music (images) to
corresponding audio recordings, that is, identifying pairs of audio and score
excerpts that refer to the same musical content. One of the typical and most
recent approaches to this task employs cross-modal deep learning architectures
to learn joint embedding spaces that link the two distinct modalities - audio
and sheet music images. While there has been steady improvement on this front
over the past years, a number of open problems still prevent large-scale
employment of this methodology. In this article we attempt to provide an
insightful examination of the current developments on audio-sheet music
retrieval via deep learning methods. We first identify a set of main challenges
on the road towards robust and large-scale cross-modal music retrieval in real
scenarios. We then highlight the steps we have taken so far to address some of
these challenges, documenting step-by-step improvement along several
dimensions. We conclude by analysing the remaining challenges and present ideas
for solving these, in order to pave the way to a unified and robust methodology
for cross-modal music retrieval.
- Abstract(参考訳): マルチモーダル音楽情報検索の応用範囲は、大量の楽譜コレクション(画像)を対応するオーディオ録音に接続する問題、すなわち、同じ音楽コンテンツを参照するオーディオとスコアのペアを識別する問題を中心にしている。
このタスクの典型的かつ最近のアプローチの1つは、オーディオと楽譜の2つの異なるモダリティを結びつける共同埋め込み空間を学習するために、クロスモーダルなディープラーニングアーキテクチャを採用することである。
過去数年間、この面では着実に改善されてきたが、多くの未解決問題がいまだに大規模な雇用を妨げている。
本稿では,深層学習によるオーディオシート音楽検索の現状について,洞察に富む検討を行う。
まず,実環境でのロバストで大規模なクロスモーダル音楽検索への道のりの主な課題を明らかにする。
そして、これらの課題のいくつかに対処するために、これまでとったステップを強調します。
本研究は,モーダル音楽検索のための統一的,堅牢な方法論への道を開くために,残りの課題を分析し,これらを解決するためのアイデアを提示する。
関連論文リスト
- MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval [57.891157692501345]
$textbfMultiVENT 2.0$は、大規模かつ多言語なイベント中心のビデオ検索ベンチマークである。
218,000以上のニュースビデオと、特定の世界イベントを対象とした3,906のクエリが提供されている。
予備的な結果は、最先端のビジョン言語モデルは、この課題にかなり苦労していることを示している。
論文 参考訳(メタデータ) (2024-10-15T13:56:34Z) - Unlocking Potential in Pre-Trained Music Language Models for Versatile Multi-Track Music Arrangement [10.714947060480426]
シンボリック・ミュージック・モデルの微調整を可能にする一貫したシーケンス・ツー・シーケンス・フレームワークを提案する。
提案手法は,タスク固有のベースラインよりも高い音質が得られることを示す。
論文 参考訳(メタデータ) (2024-08-27T16:18:51Z) - Towards Explainable and Interpretable Musical Difficulty Estimation: A Parameter-efficient Approach [49.2787113554916]
音楽コレクションの整理には曲の難易度を推定することが重要である。
シンボリックな音楽表現の難易度推定には説明可能な記述子を用いる。
ピアノレパートリーで評価したアプローチは,平均2乗誤差(MSE)が1.7。
論文 参考訳(メタデータ) (2024-08-01T11:23:42Z) - LARP: Language Audio Relational Pre-training for Cold-Start Playlist Continuation [49.89372182441713]
マルチモーダルコールドスタートプレイリスト継続モデルであるLARPを導入する。
我々のフレームワークはタスク固有の抽象化の段階を増大させており、イントラトラック(音声)コントラスト損失、トラックトラックコントラスト損失、トラックプレイリストコントラスト損失である。
論文 参考訳(メタデータ) (2024-06-20T14:02:15Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - STELLA: Continual Audio-Video Pre-training with Spatio-Temporal Localized Alignment [61.83340833859382]
様々な音声・ビデオの意味を時間とともに継続的に学習することは、音声関連推論タスクに不可欠である。
これは非時間的問題であり、オーディオとビデオのペア間のスパース時間相関と、オーディオとビデオの関係を忘れるマルチモーダル相関オーバーライトという2つの重要な課題を提起する。
本稿では,2つの新しいアイデアを取り入れた連続的なオーディオビデオ事前学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-12T10:50:21Z) - Self-Supervised Contrastive Learning for Robust Audio-Sheet Music
Retrieval Systems [3.997809845676912]
自己指導型コントラスト学習は、実際の音楽コンテンツからの注釈付きデータの不足を軽減することができることを示す。
クロスモーダルなピース識別の高レベルなタスクにスニペットを埋め込む。
本研究では,実際の音楽データが存在する場合,検索品質が30%から100%に向上することが観察された。
論文 参考訳(メタデータ) (2023-09-21T14:54:48Z) - Passage Summarization with Recurrent Models for Audio-Sheet Music
Retrieval [4.722882736419499]
クロスモーダル音楽検索は、シート音楽画像とオーディオ録音を接続することができる。
そこで本研究では,音声と楽譜の長いパスを要約するために,共同埋め込みを学習するクロスモーダル・リカレント・ネットワークを提案する。
合成および実ピアノデータとスコアについて多数の実験を行い、提案手法が全ての可能な構成においてより正確な検索につながることを示す。
論文 参考訳(メタデータ) (2023-09-21T14:30:02Z) - AutoMatch: A Large-scale Audio Beat Matching Benchmark for Boosting Deep
Learning Assistant Video Editing [7.672758847025309]
短いビデオリソースは、多くのビデオクリエーターが貢献する貴重な編集作業とは独立してはならない。
本稿では、背景音楽に基づく適切な遷移時間スタンプを推奨するオーディオビートマッチング(ABM)について検討する。
この技術は、ビデオ編集中の労働集約的な作業を容易にし、クリエーターのエネルギを節約し、ビデオコンテンツのクリエイティビティに集中できるようにする。
論文 参考訳(メタデータ) (2023-03-03T12:30:09Z) - Late multimodal fusion for image and audio music transcription [0.0]
マルチモーダル画像とオーディオ音楽の書き起こしは、画像とオーディオのモダリティによって伝達される情報を効果的に組み合わせるという課題を含む。
エンドツーエンドのOMRシステムとAMTシステムに関する仮説を,初めてマージするために,4つの組み合わせのアプローチについて検討した。
4つの戦略のうちの2つは、対応する単調な標準認識フレームワークを著しく改善することを検討した。
論文 参考訳(メタデータ) (2022-04-06T20:00:33Z) - Deep Audio-Visual Learning: A Survey [53.487938108404244]
現在の音声・視覚学習タスクを4つのサブフィールドに分割する。
本稿では,各サブフィールドに残る課題だけでなく,最先端の手法についても論じる。
一般的に使用されるデータセットとパフォーマンスメトリクスを要約します。
論文 参考訳(メタデータ) (2020-01-14T13:11:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。