論文の概要: Multimodal Dataset Normalization and Perceptual Validation for Music-Taste Correspondences
- arxiv url: http://arxiv.org/abs/2604.10632v1
- Date: Sun, 12 Apr 2026 13:18:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.13993
- Title: Multimodal Dataset Normalization and Perceptual Validation for Music-Taste Correspondences
- Title(参考訳): 音楽嗜好対応のためのマルチモーダルデータセット正規化と知覚的検証
- Authors: Matteo Spanio, Valentina Frezzato, Antonio Rodà,
- Abstract要約: 音楽フレーバー研究のためのクロスモーダルデータセットは、知覚実験が設計によって高価で小さくなるため、収集が困難である。
実験用サウンドトラックコレクションから大規模なFMAコーパスへのオーディオ・フレーバー相関,特徴・重要ランク,潜在要素構造の移行を検証するための2つの実験を行った。
これらの知見は、合成FMAアノテーションに音素調味料効果が存在するという結論を裏付けるものである。
- 参考スコア(独自算出の注目度): 1.0705399532413615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Collecting large, aligned cross-modal datasets for music-flavor research is difficult because perceptual experiments are costly and small by design. We address this bottleneck through two complementary experiments. The first tests whether audio-flavor correlations, feature-importance rankings, and latent-factor structure transfer from an experimental soundtracks collection (257~tracks with human annotations) to a large FMA-derived corpus ($\sim$49,300 segments with synthetic labels). The second validates computational flavor targets -- derived from food chemistry via a reproducible pipeline -- against human perception in an online listener study (49~participants, 20~tracks). Results from both experiments converge: the quantitative transfer analysis confirms that cross-modal structure is preserved across supervision regimes, and the perceptual evaluation shows significant alignment between computational targets and listener ratings (permutation $p<0.0001$, Mantel $r=0.45$, Procrustes $m^2=0.51$). Together, these findings support the conclusion that sonic seasoning effects are present in synthetic FMA annotations. We release datasets and companion code to support reproducible cross-modal AI research.
- Abstract(参考訳): 音楽フレーバー研究のための大規模で整列したクロスモーダルデータセットの収集は、知覚実験が設計によって高価で小さくなるため困難である。
2つの相補的な実験を通してこのボトルネックに対処する。
実験的なサウンドトラックコレクション(257〜トラックと人間のアノテーション)から大規模なFMA由来コーパス(合成ラベル付き$49,300)へのオーディオ・フレーバー相関、特徴・重要ランク、潜在要素構造の移行を検証した。
2つ目は、オンラインリスナー研究(49~参加者、20~トラック)において、人間の知覚に対して、再現可能なパイプラインを介して食品化学から派生した、計算的なフレーバーターゲットを検証する。
定量的トランスファー分析により、クロスモーダル構造は監督体制全体にわたって保存され、知覚的評価は計算目標とリスナー評価(permutation $p<0.0001$, Mantel $r=0.45$, Procrustes $m^2=0.51$)の間に顕著な一致を示す。
これらの知見は、合成FMAアノテーションに音素調味料効果が存在するという結論を裏付けるものである。
再現可能なクロスモーダルAI研究をサポートするために、データセットとコンパニオンコードをリリースします。
関連論文リスト
- TimberAgent: Gram-Guided Retrieval for Executable Music Effect Control [9.319159431126453]
Texture Resonance Retrieval (TRR) は、中間レベルWav2Vec2アクティベーションのグラマー行列から構築されたオーディオ表現である。
TRRを1063のプレセットと204のクエリで評価した。
論文 参考訳(メタデータ) (2026-03-10T08:09:32Z) - Towards Generalized Synapse Detection Across Invertebrate Species [0.07999703756441755]
SimpSynはシングルステージのResidual U-Netで、シナプス前および後における二重チャネルの球面の予測を訓練している。
F1スコアのSynfulは、すべてのボリュームで相乗的なサイト検出に優れています。
論文 参考訳(メタデータ) (2025-09-21T11:40:49Z) - Mind the Gap! Static and Interactive Evaluations of Large Audio Models [55.87220295533817]
大型オーディオモデル(LAM)は、音声ネイティブな体験をパワーアップするために設計されている。
本研究は,484名の参加者から,LAMを評価し,7,500名のLAMインタラクションを収集する対話的アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-21T20:29:02Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Synthetic Combinations: A Causal Inference Framework for Combinatorial
Interventions [8.491098180590447]
介入の任意の組み合わせ、すなわち$N×2p$因果パラメータについて、単位特異的な潜在的な結果を学ぶ。
様々なパラメーターを推定するために$N×2p$の実験を実行すると、$N$と$p$が成長するほど高価で/または実現不可能である。
論文 参考訳(メタデータ) (2023-03-24T18:45:44Z) - A Fair Experimental Comparison of Neural Network Architectures for
Latent Representations of Multi-Omics for Drug Response Prediction [7.690774882108066]
等価条件下でのマルチオミクス統合手法の訓練と最適化を行う。
我々は、中間統合と後期統合の利点を組み合わせた新しい手法、Omics Stackingを考案した。
複数のオミクスデータを用いた公開薬物応答データセットを用いて実験を行った。
論文 参考訳(メタデータ) (2022-08-31T12:46:08Z) - BeCAPTCHA-Type: Biometric Keystroke Data Generation for Improved Bot
Detection [63.447493500066045]
本研究では,キーストローク生体データ合成のためのデータ駆動学習モデルを提案する。
提案手法は,ユニバーサルモデルとユーザ依存モデルに基づく2つの統計的手法と比較する。
実験フレームワークでは16万件の被験者から1億3600万件のキーストロークイベントのデータセットについて検討している。
論文 参考訳(メタデータ) (2022-07-27T09:26:15Z) - Brain Image Synthesis with Unsupervised Multivariate Canonical
CSC$\ell_4$Net [122.8907826672382]
我々は,新しいCSC$ell_4$Netを用いて,イントレとイントラモーダルの両方にまたがる専用特徴を学習することを提案する。
論文 参考訳(メタデータ) (2021-03-22T05:19:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。