論文の概要: Direct content-based retrieval from music scores images
- arxiv url: http://arxiv.org/abs/2605.22255v2
- Date: Thu, 28 May 2026 16:18:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 05:02:24.528761
- Title: Direct content-based retrieval from music scores images
- Title(参考訳): 音楽スコア画像からの直接コンテンツベース検索
- Authors: Noelia Luna-Barahona, Antonio Ríos-Vila, Félix Fuentes-Hurtado, David Rizo, Jorge Calvo-Zaragoza,
- Abstract要約: この研究は、まず、どのスコアの特徴が検索に最も関係しているかを調査し、注釈付きコーパスからクエリデータセットを構築するための体系的な方法を定義することによって、この分野に寄与する。
また、光学音楽認識(OMR)に依存する書き起こしベースのアプローチから、スコア画像から直接クエリを認識できるように訓練された書き起こしのないトランスフォーマーモデル、テキストプロンプト付き大言語モデルなど、音楽スコア画像のコンテンツベースの検索方法についても検討する。
- 参考スコア(独自算出の注目度): 8.910548576237087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The digitization of musical scores plays a crucial role in their preservation and accessibility, yet information retrieval still depends mainly on metadata searches, such as by title or composer. Content based search in music score images remains underexplored compared to text documents, despite its potential value for musicians, musicologists, and educators. This work contributes to the field by first studying which characteristics of a score are most relevant for search and by defining a systematic method to build query datasets from any annotated corpus. We also consider diverse methods for content-based search on music score images, ranging from transcription-based approaches relying on Optical Music Recognition (OMR), to a transcription-free Transformer model trained to recognize queries directly from score images, and a text-prompted Large Language Model. Our experiments evaluate these models on four corpora exhibiting diverse characteristics in terms of dataset size, image quality, and typesetting mechanisms. Overall, each method excels under different conditions: OMR-based pipelines achieve higher in-domain retrieval, whereas transcription-free models handle domain variability more effectively.
- Abstract(参考訳): 楽譜のデジタル化は保存とアクセシビリティにおいて重要な役割を果たすが、情報検索は主にタイトルや作曲家によるメタデータ検索に依存している。
音楽家、音楽学者、教育者にとって潜在的に価値があるにもかかわらず、音楽スコア画像のコンテンツベースの検索は、テキストドキュメントと比較してまだ探索されていない。
この研究は、まず、どのスコアの特徴が検索に最も関係しているかを調査し、注釈付きコーパスからクエリデータセットを構築するための体系的な方法を定義することによって、この分野に寄与する。
また、光学音楽認識(OMR)に依存する書き起こしベースのアプローチから、スコア画像から直接クエリを認識できるように訓練された書き起こしのないトランスフォーマーモデル、テキストプロンプト付き大言語モデルなど、音楽スコア画像のコンテンツベースの検索方法についても検討する。
本実験は, データセットサイズ, 画像品質, タイプセット機構の多様性を示す4つのコーパスのモデルについて検討した。
OMRベースのパイプラインはより高いドメイン内検索を達成するが、転写自由モデルはドメインの多様性をより効果的に扱う。
関連論文リスト
- ATIR: Towards Audio-Text Interleaved Contextual Retrieval [63.68521448682396]
本稿では,Audio-Text Interleaved contextual Retrieval (ATIR)タスクを導入する。
このベンチマークは、意味検索における既存の音声検索データセットの限界を実質的に解決する。
論文 参考訳(メタデータ) (2026-04-22T07:11:58Z) - A Study on the Data Distribution Gap in Music Emotion Recognition [7.281487567929003]
音楽感情認識(英語: Music Emotion Recognition, MER)は、人間の知覚に深く結びついている課題である。
先行研究は、様々なジャンルを取り入れるよりも、特定の音楽スタイルに焦点を当てる傾向がある。
音声コンテンツから感情を認識するタスクには,次元的感情アノテーションを用いた5つのデータセットを探索する。
論文 参考訳(メタデータ) (2025-10-06T10:57:05Z) - Enriching Music Descriptions with a Finetuned-LLM and Metadata for Text-to-Music Retrieval [7.7464988473650935]
Text-to-Music Retrievalは、広範な音楽データベース内のコンテンツ発見において重要な役割を担っている。
本稿では,TTMR++と呼ばれる改良されたテキスト・音楽検索モデルを提案する。
論文 参考訳(メタデータ) (2024-10-04T09:33:34Z) - Optical Music Recognition in Manuscripts from the Ricordi Archive [6.274767633959002]
リコルディのアーカイブは、ドニゼッティ、ヴェルディ、プッチーニといった著名なオペラ作曲家の著名な音楽写本のコレクションであり、デジタル化されている。
我々は,ノート,ステーブ,クリーフ,消去,作曲家の注釈など,写本に描かれた様々な音楽要素を表すサンプルを自動的に抽出した。
我々は、識別された音楽要素を区別するために、複数のニューラルネットワークベースの分類器を訓練した。
論文 参考訳(メタデータ) (2024-08-14T09:29:11Z) - Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - WikiMuTe: A web-sourced dataset of semantic descriptions for music audio [7.4327407361824935]
音楽の豊かな意味記述を含む新しいオープンデータセットWikiMuTeを提案する。
このデータはウィキペディアの豊富な楽曲に関する記事のカタログから得られたものである。
我々は、テキストと音声の表現を共同で学習し、モーダル検索を行うモデルを訓練する。
論文 参考訳(メタデータ) (2023-12-14T18:38:02Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Where Does the Performance Improvement Come From? - A Reproducibility
Concern about Image-Text Retrieval [85.03655458677295]
画像テキスト検索は、情報検索分野において、徐々に主要な研究方向になりつつある。
まず、画像テキスト検索タスクに焦点が当てられている理由と関連性について検討する。
本研究では,事前学習と非事前学習による検索モデルの再現の諸側面を解析する。
論文 参考訳(メタデータ) (2022-03-08T05:01:43Z) - A Feature Analysis for Multimodal News Retrieval [9.269820020286382]
画像とテキストの5つの特徴型について検討し,異なる組み合わせによる検索システムの性能の比較を行った。
実験結果から,視覚情報とテキスト情報の両方を考慮すると,検索精度が向上することが示された。
論文 参考訳(メタデータ) (2020-07-13T14:09:29Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。