Fugu-MT 論文翻訳(概要): Descriptor-Injected Cross-Modal Learning: A Systematic Exploration of Audio-MIDI Alignment via Spectral and Melodic Features

論文の概要: Descriptor-Injected Cross-Modal Learning: A Systematic Exploration of Audio-MIDI Alignment via Spectral and Melodic Features

arxiv url: http://arxiv.org/abs/2604.10283v1
Date: Sat, 11 Apr 2026 16:53:36 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-14 20:13:15.936209
Title: Descriptor-Injected Cross-Modal Learning: A Systematic Exploration of Audio-MIDI Alignment via Spectral and Melodic Features
Title（参考訳）: Descriptor-Injected Cross-Modal Learning:スペクトルおよびメロディ特徴を用いた音声MIDIアライメントの体系的探索
Authors: Mariano Fernández Méndez,
Abstract要約: 音声録音とシンボリック音楽表現(MIDI)の相互検索は依然として困難である。本研究は,手作りのドメイン特徴を持つモダリティ特異的エンコーダの拡張であるディスクリプタインジェクションについて検討する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Cross-modal retrieval between audio recordings and symbolic music representations (MIDI) remains challenging because continuous waveforms and discrete event sequences encode different aspects of the same performance. We study descriptor injection, the augmentation of modality-specific encoders with hand-crafted domain features, as a bridge across this gap. In a three-phase campaign covering 13 descriptor-mechanism combinations, 6 architectural families, and 3 training schedules, the best configuration reaches a mean S of 84.0 percent across five independent seeds, improving the descriptor-free baseline by 8.8 percentage points. Causal ablation shows that the audio descriptor A4, based on octave-band energy dynamics, drives the gain in the top dual models, while the MIDI descriptor D4 has only a weak inference-time effect despite improving training dynamics. We also introduce reverse cross-attention, where descriptor tokens query encoder features, reducing attention operations relative to the standard formulation while remaining competitive. CKA analysis shows that descriptors substantially increase audio-MIDI transformer layer alignment, indicating representational convergence rather than simple feature concatenation. Perturbation analysis identifies high-frequency octave bands as the dominant discriminative signal. All experiments use MAESTRO v3.0.0 with an evaluation protocol controlling for composer and piece similarity.
Abstract（参考訳）: 連続的な波形と離散的なイベントシーケンスが同じパフォーマンスの異なる側面を符号化しているため、オーディオ録音とシンボリック音楽表現(MIDI)間のクロスモーダル検索は依然として困難である。このギャップを渡る橋として,手作りのドメイン特徴を持つモダリティ特化エンコーダを付加したディスクリプタインジェクションについて検討した。 13のディスクリプタ・メカリズムの組み合わせ、6つの建築家族、3つのトレーニングスケジュールをカバーする3段階のキャンペーンにおいて、最良の構成は5つの独立した種子の平均Sが84.0%に達し、ディスクリプタフリーベースラインが8.8ポイント向上した。因果アブレーションは、オクターブバンドエネルギー力学に基づくオーディオディスクリプタA4が上位2つのモデルのゲインを駆動し、MIDIディスクリプタD4はトレーニングダイナミクスの改善にもかかわらず、推論時間効果が弱かったことを示している。また、ディスクリプタトークンがエンコーダの特徴を問合せし、競争力を維持しながら標準定式化に対する注意操作を減らし、逆のクロスアテンションも導入する。 CKA解析により,デクリプタは音声-MIDIトランスフォーマー層アライメントを大幅に増加させ,単純な特徴結合ではなく表現収束を示す。摂動解析は、周波数オクターブ帯を支配的な識別信号として同定する。すべての実験では、MAESTRO v3.0.0を使用して、作曲家と作品の類似性を制御する評価プロトコルを使用している。

関連論文リスト

Representation-Regularized Convolutional Audio Transformer for Audio Understanding [53.092757178419355]
スクラッチからのブートストラップ表現は計算に高価で、しばしば収束するために広範囲のトレーニングを必要とします。本稿では,これらの課題に対処するための統合フレームワークであるConvolutional Audio Transformer (CAT)を提案する。
論文参考訳（メタデータ） (2026-01-29T12:16:19Z)
Sines, Transient, Noise Neural Modeling of Piano Notes [0.0]
3つのサブモジュールはピアノ録音からコンポーネントを学び、ハーモニック、トランジェント、ノイズ信号を生成する。特異点から、三弦の異なる鍵と畳み込みに基づくネットワークとの結合をエミュレートする。その結果、モデルがターゲットの部分分布と一致し、スペクトルの上部のエネルギーがより多くの課題をもたらすことを予測した。
論文参考訳（メタデータ） (2024-09-10T13:48:18Z)
AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment [67.10208647482109]
STS音声変換タスクは,音声録音に対応する歌唱サンプルを生成することを目的としている。本稿では,明示的なクロスモーダルアライメントに基づくSTSモデルであるAlignSTSを提案する。実験の結果、AlignSTSは客観的メトリクスと主観的メトリクスの両方で優れたパフォーマンスを達成している。
論文参考訳（メタデータ） (2023-05-08T06:02:10Z)
DDX7: Differentiable FM Synthesis of Musical Instrument Sounds [7.829520196474829]
微分可能ディジタル信号処理(DDSP)により、ディープニューラルネットワーク(DNN)によるニュアンスドオーディオレンダリングが可能になった楽器音のニューラルFM再生のための軽量アーキテクチャDX7(DDX7)を提案する。
論文参考訳（メタデータ） (2022-08-12T08:39:45Z)
Multi-instrument Music Synthesis with Spectrogram Diffusion [19.81982315173444]
我々は、MIDIシーケンスから任意の組み合わせの楽器をリアルタイムで生成できるニューラルシンセサイザーの中盤に焦点を当てる。 MIDIはエンコーダ・デコーダ変換器でスペクトログラム、次いでGAN(Generative Adversarial Network)スペクトルインバータでスペクトログラムからオーディオへ分光する。これは、楽器と音符の任意の組み合わせのための対話的で表現力のあるニューラルシンセシスに向けた、有望な第一歩である。
論文参考訳（メタデータ） (2022-06-11T03:26:15Z)
TONet: Tone-Octave Network for Singing Melody Extraction from Polyphonic Music [43.17623332544677]
TONetは、トーンとオクターブの両方の知覚を改善するプラグアンドプレイモデルである。本稿では,高調波を明示的にグループ化する改良された入力表現Tone-CFPを提案する。第3に,最終的なサリエンス特徴写像を改善するために,トーンオクターブ融合機構を提案する。
論文参考訳（メタデータ） (2022-02-02T10:55:48Z)
MIDI-DDSP: Detailed Control of Musical Performance via Hierarchical Modeling [6.256118777336895]
音楽表現は、どの音符が演奏され、どのように演奏されるかの両方を制御する必要がある。楽器の階層モデルであるMIDI-DDSPを導入し,リアルなニューラルオーディオ合成と詳細なユーザ制御を実現する。この階層は、高忠実度音声を再構成し、音符列のパフォーマンス特性を正確に予測し、与えられた音符列の属性を独立に操作し、また、完全なシステムとして、新しい音符列から現実的な音声を生成することを実証する。
論文参考訳（メタデータ） (2021-12-17T04:15:42Z)
Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文参考訳（メタデータ） (2020-09-06T13:01:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。