論文の概要: Boundary Regression for Leitmotif Detection in Music Audio
- arxiv url: http://arxiv.org/abs/2503.07977v1
- Date: Tue, 11 Mar 2025 02:21:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:41:39.027134
- Title: Boundary Regression for Leitmotif Detection in Music Audio
- Title(参考訳): 音楽オーディオにおけるライトモチーフ検出のための境界回帰
- Authors: Sihun Lee, Dasaem Jeong,
- Abstract要約: ライトモチーフ(英: Leitmotifs)は、楽曲の様々な形態で再演される音楽のフレーズである。
本稿では,境界回帰タスクとして,レイトモチーフ検出に対処する方法について述べる。
- 参考スコア(独自算出の注目度): 0.9208007322096533
- License:
- Abstract: Leitmotifs are musical phrases that are reprised in various forms throughout a piece. Due to diverse variations and instrumentation, detecting the occurrence of leitmotifs from audio recordings is a highly challenging task. Leitmotif detection may be handled as a subcategory of audio event detection, where leitmotif activity is predicted at the frame level. However, as leitmotifs embody distinct, coherent musical structures, a more holistic approach akin to bounding box regression in visual object detection can be helpful. This method captures the entirety of a motif rather than fragmenting it into individual frames, thereby preserving its musical integrity and producing more useful predictions. We present our experimental results on tackling leitmotif detection as a boundary regression task.
- Abstract(参考訳): ライトモチーフ(英: Leitmotifs)は、楽曲の様々な形態で再演される音楽のフレーズである。
様々なバリエーションと楽器により、オーディオ録音からのライトモチーフの発生を検出することは極めて難しい課題である。
レイトモチーフ検出は、レイトモチーフのアクティビティをフレームレベルで予測するオーディオイベント検出のサブカテゴリとして扱うことができる。
しかし、ライトモチーフが明瞭でコヒーレントな音楽構造を具現化しているため、視覚的物体検出における境界ボックス回帰に類似したより包括的なアプローチが有用である。
この方法は、個々のフレームに断片化するのではなく、モチーフ全体をキャプチャし、音楽の完全性を維持し、より有用な予測を生成する。
本研究は,境界回帰タスクとして,レイトモチーフ検出に対処するための実験結果を示す。
関連論文リスト
- Toward a More Complete OMR Solution [49.74172035862698]
光音楽認識は、音楽の表記をデジタル形式に変換することを目的としている。
OMRに取り組む1つのアプローチは、画像内の視覚音楽の表記要素を最初に検出するマルチステージパイプラインである。
YOLOv8に基づく音楽オブジェクト検出器を導入し,検出性能を向上する。
第2に、検出出力に基づいて記法組立段階を完了する教師付きトレーニングパイプラインを導入する。
論文 参考訳(メタデータ) (2024-08-31T01:09:12Z) - Robust Pedestrian Detection via Constructing Versatile Pedestrian Knowledge Bank [51.66174565170112]
本稿では,多目的な歩行者知識銀行を構築するための新しいアプローチを提案する。
我々は大規模な事前訓練モデルから歩行者の知識を抽出する。
次に、ほとんどの代表的特徴を定量化し、背景のシーンと区別できるように指導することで、それらをキュレートする。
論文 参考訳(メタデータ) (2024-04-30T07:01:05Z) - Exploring the Emotional Landscape of Music: An Analysis of Valence
Trends and Genre Variations in Spotify Music Data [0.0]
本稿ではSpotifyの音楽データを用いた音楽感情と傾向の複雑な分析を行う。
回帰モデル、時間分析、気分遷移、ジャンル調査を応用し、音楽と感情の関係のパターンを明らかにする。
論文 参考訳(メタデータ) (2023-10-29T15:57:31Z) - Self-Supervised Contrastive Learning for Robust Audio-Sheet Music
Retrieval Systems [3.997809845676912]
自己指導型コントラスト学習は、実際の音楽コンテンツからの注釈付きデータの不足を軽減することができることを示す。
クロスモーダルなピース識別の高レベルなタスクにスニペットを埋め込む。
本研究では,実際の音楽データが存在する場合,検索品質が30%から100%に向上することが観察された。
論文 参考訳(メタデータ) (2023-09-21T14:54:48Z) - Cadence Detection in Symbolic Classical Music using Graph Neural
Networks [7.817685358710508]
本稿では,シンボルスコアのグラフ表現を中間的手段として提示し,ケイデンス検出課題を解決する。
グラフ畳み込みネットワークを用いた不均衡ノード分類問題としてケイデンス検出にアプローチする。
実験の結果,グラフ畳み込みは,非局所的コンテキストを符号化する特殊な特徴を考案する必要がなく,ケイデンス検出を支援する非局所的特徴を学習できることが示唆された。
論文 参考訳(メタデータ) (2022-08-31T12:39:57Z) - Contrastive Learning with Positive-Negative Frame Mask for Music
Representation [91.44187939465948]
本稿では,PEMRと略記したコントラッシブラーニングフレームワークに基づく,音楽表現のための正負負のフレームマスクを提案する。
我々は,同じ音楽からサンプリングした自己増強陽性/陰性の両方に対応するために,新しいコントラスト学習目標を考案した。
論文 参考訳(メタデータ) (2022-03-17T07:11:42Z) - Towards Cross-Cultural Analysis using Music Information Dynamics [7.4517333921953215]
異なる文化の音楽は、2つの面で異なるスタイルのコンベンションを持つことによって異なる美学を確立する。
本稿では,これら2つの側面に着目し,異なる文化の楽曲を定量的に比較する枠組みを提案する。
論文 参考訳(メタデータ) (2021-11-24T16:05:29Z) - Tracing Back Music Emotion Predictions to Sound Sources and Intuitive
Perceptual Qualities [6.832341432995627]
音楽感情認識は,音楽情報検索研究において重要な課題である。
より良いモデルに向けた重要なステップの1つは、モデルが実際にデータから学んでいるものを理解することである。
本研究では,高レベルの感情予測に結びつくスペクトル画像セグメントを用いて,モデル予測の説明を導出する方法を示す。
論文 参考訳(メタデータ) (2021-06-14T22:49:19Z) - Repetitive Activity Counting by Sight and Sound [110.36526333035907]
本論文では,ビデオの繰り返し動作をカウントする。
映像コンテンツのみを解析する既存の作品と異なり、再生カウントプロセスに初めて対応する音を組み込んでいます。
論文 参考訳(メタデータ) (2021-03-24T11:15:33Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。