論文の概要: Multidimensional Music Aesthetic Evaluation via Semantically Consistent C-Mixup Augmentation
- arxiv url: http://arxiv.org/abs/2511.18869v1
- Date: Mon, 24 Nov 2025 08:12:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.102262
- Title: Multidimensional Music Aesthetic Evaluation via Semantically Consistent C-Mixup Augmentation
- Title(参考訳): 連続したC-Mixup拡張による多次元音楽審美評価
- Authors: Shuyang Liu, Yuan Jin, Rui Lin, Shizhe Chen, Junyu Dai, Tao Jiang,
- Abstract要約: マルチソースなマルチスケール特徴抽出と相補的なセグメントとトラックレベルの表現を組み合わせ,ロバストな音楽美的評価フレームワークを提案する。
ICASSP 2026 SongEvalベンチマークの実験により、我々の手法は相関とトップレベルのメトリクスで、ベースラインメソッドを一貫して上回ります。
- 参考スコア(独自算出の注目度): 17.880928182510804
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Evaluating the aesthetic quality of generated songs is challenging due to the multi-dimensional nature of musical perception. We propose a robust music aesthetic evaluation framework that combines (1) multi-source multi-scale feature extraction to obtain complementary segment- and track-level representations, (2) a hierarchical audio augmentation strategy to enrich training data, and (3) a hybrid training objective that integrates regression and ranking losses for accurate scoring and reliable top-song identification. Experiments on the ICASSP 2026 SongEval benchmark demonstrate that our approach consistently outperforms baseline methods across correlation and top-tier metrics.
- Abstract(参考訳): 生成した楽曲の美的品質を評価することは、音楽知覚の多次元的な性質のために困難である。
本研究では,(1)複数ソースのマルチスケール特徴抽出と相補的なセグメントレベルおよびトラックレベルの表現,(2)トレーニングデータ強化のための階層的音声拡張戦略,(3)正確な評価と信頼性の高いトップソング識別のための回帰とランキングの損失を統合するハイブリッドトレーニング目標を併用した,ロバストな音楽審美評価フレームワークを提案する。
ICASSP 2026 SongEvalベンチマークの実験により、我々の手法は相関とトップレベルのメトリクスで、ベースラインメソッドを一貫して上回ります。
関連論文リスト
- Automatic Music Sample Identification with Multi-Track Contrastive Learning [36.60619556916679]
自動サンプル識別の課題に取り組む。
我々は、多トラックデータセットを活用して、正の人工ミックスを生成する自己教師型学習アプローチを採用する。
このような手法は,従来の最先端のベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-10-13T15:17:08Z) - Unlocking the Essence of Beauty: Advanced Aesthetic Reasoning with Relative-Absolute Policy Optimization [63.169050703903515]
強化学習(RL)を用いた包括的審美的推論フレームワークAes-R1を提案する。
Aes-R1はパイプライン、AesCoTを統合し、高品質なチェーン・オブ・プリーティングデータの構築とフィルタリングを行う。
実験により、Aes-R1は背骨の平均PLCC/SRCCを47.9%/34.8%改善することが示された。
論文 参考訳(メタデータ) (2025-09-26T04:55:00Z) - Progressive Rock Music Classification [0.0]
本研究では,複雑な構成と多種多様な楽器を特徴とするジャンルである,プログレッシブ・ロック音楽の分類について検討する。
我々は、スペクトログラム、Mel-Frequency Cepstral Coefficients (MFCC)、クロマグラム、歌のスニペットからのビート位置などの総合的なオーディオ特徴を抽出した。
スニペットレベルの予測を最終曲分類に集約するために、すべての投票を勝者とする戦略が採用された。
論文 参考訳(メタデータ) (2025-04-15T02:48:52Z) - Machine Learning Framework for Audio-Based Content Evaluation using MFCC, Chroma, Spectral Contrast, and Temporal Feature Engineering [0.0]
そこで本研究では,YouTube上の音楽カバーの音声サンプルと,オリジナル曲の音声とユーザコメントからの感情スコアを含むデータセットを構築した。
我々のアプローチは、広範囲な事前処理、音声信号を30秒のウィンドウに分割し、高次元の特徴表現を抽出することである。
回帰モデルを用いて感情スコアを0-100スケールで予測し,それぞれ3.420,5.482,2.783,4.212の根平均二乗誤差(RMSE)値を達成する。
論文 参考訳(メタデータ) (2024-10-31T20:26:26Z) - No-Reference Image Quality Assessment with Global-Local Progressive Integration and Semantic-Aligned Quality Transfer [6.095342999639137]
視覚変換器(ViT)を用いたグローバル特徴抽出器と畳み込みニューラルネットワーク(CNN)を用いた局所特徴抽出器を組み合わせた二重測定フレームワークを開発した。
多様な画像コンテンツの品質スコアを主観的な意見スコアで自動的にラベル付けすることで、トレーニングデータを拡張するセマンティック・アライン・クオリティ・トランスファー手法を提案する。
論文 参考訳(メタデータ) (2024-08-07T16:34:32Z) - Hierarchical Audio-Visual Information Fusion with Multi-label Joint
Decoding for MER 2023 [51.95161901441527]
本稿では,離散的感情と次元的感情の両方を認識するための新しい枠組みを提案する。
基礎モデルから抽出した深い特徴は、生ビデオの頑健な音響的および視覚的表現として使用される。
我々の最終システムは最先端のパフォーマンスを達成し、MER-MULTIサブチャレンジのリーダーボードで3位にランクインする。
論文 参考訳(メタデータ) (2023-09-11T03:19:10Z) - Low-complexity deep learning frameworks for acoustic scene
classification [64.22762153453175]
音響シーン分類(ASC)のための低複雑さ深層学習フレームワークを提案する。
提案するフレームワークは、フロントエンドのスペクトログラム抽出、オンラインデータ拡張、バックエンドの分類、予測される確率の後期融合の4つの主要なステップに分けることができる。
DCASE 2022 Task 1 Development データセットで実施した実験は,低複雑さの要求を十分に満たし,最も高い分類精度を 60.1% で達成した。
論文 参考訳(メタデータ) (2022-06-13T11:41:39Z) - Adaptive Hierarchical Similarity Metric Learning with Noisy Labels [138.41576366096137]
適応的階層的類似度メトリック学習法を提案する。
ノイズに敏感な2つの情報、すなわち、クラスワイドのばらつきとサンプルワイドの一貫性を考える。
提案手法は,現在の深層学習手法と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-10-29T02:12:18Z) - Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。
スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文 参考訳(メタデータ) (2020-08-01T07:46:24Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。