論文の概要: Constructing Composite Features for Interpretable Music-Tagging
- arxiv url: http://arxiv.org/abs/2603.28644v1
- Date: Mon, 30 Mar 2026 16:25:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.508018
- Title: Constructing Composite Features for Interpretable Music-Tagging
- Title(参考訳): 解釈可能な音楽タグ作成のための複合機能の構築
- Authors: Chenhao Xue, Weitao Hu, Joyraj Chakraborty, Zhijin Guo, Kang Li, Tianyu Shi, Martin Reed, Nikolaos Thomos,
- Abstract要約: 基本音楽特徴を数学的に組み合わせて合成特徴を自動的に進化させるパイプラインを提案する。
MTG-JamendoとGTZANデータセットの実験は、一貫した改善を示している。
ただし、最初の数百GP評価において、パフォーマンス向上の大部分が注目されている点には注意が必要だ。
- 参考スコア(独自算出の注目度): 10.472055993836756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Combining multiple audio features can improve the performance of music tagging, but common deep learning-based feature fusion methods often lack interpretability. To address this problem, we propose a Genetic Programming (GP) pipeline that automatically evolves composite features by mathematically combining base music features, thereby capturing synergistic interactions while preserving interpretability. This approach provides representational benefits similar to deep feature fusion without sacrificing interpretability. Experiments on the MTG-Jamendo and GTZAN datasets demonstrate consistent improvements compared to state-of-the-art systems across base feature sets at different abstraction levels. It should be noted that most of the performance gains are noticed within the first few hundred GP evaluations, indicating that effective feature combinations can be identified under modest search budgets. The top evolved expressions include linear, nonlinear, and conditional forms, with various low-complexity solutions at top performance aligned with parsimony pressure to prefer simpler expressions. Analyzing these composite features further reveals which interactions and transformations tend to be beneficial for tagging, offering insights that remain opaque in black-box deep models.
- Abstract(参考訳): 複数のオーディオ機能を組み合わせることで、音楽タグ付けのパフォーマンスが向上するが、一般的なディープラーニングベースの機能融合法は解釈可能性に欠けることが多い。
この問題に対処するために,基本的音楽特徴を数学的に組み合わせ,解釈性を維持しながら相乗的相互作用を捉えることで,合成特徴を自動的に進化させる遺伝的プログラミング(GP)パイプラインを提案する。
このアプローチは、解釈性を犠牲にすることなく、深い特徴融合に似た表現上の利点を提供する。
MTG-JamendoデータセットとGTZANデータセットの実験は、異なる抽象化レベルの基本機能セットにわたる最先端システムと比較して、一貫した改善を示している。
性能向上の大部分が最初の数百GP評価の範囲内にあり、有効な特徴の組み合わせを適度な検索予算の下で識別できることに注意する必要がある。
最上位の進化した表現は、線形、非線形、条件形式を含み、様々な低複雑さの解が、より単純な表現を好むようにパーシモニー圧力に整合している。
これらの複合的特徴を分析することで、どの相互作用や変換がタグ付けに有用かが明らかになり、ブラックボックスの深層モデルでは不透明な洞察が得られます。
関連論文リスト
- From Feature Learning to Spectral Basis Learning: A Unifying and Flexible Framework for Efficient and Robust Shape Matching [35.320288409500314]
本稿では,固定基底関数を学習可能な関数に置き換えることで,標準的な関数マップを一般化するフレームワークであるAdvanced Functional Mapを紹介する。
頑健な3次元形状マッチングのための非教師なしスペクトルベース学習法を提案する。
提案手法は,新しい熱拡散モジュールと教師なし損失関数と,高価な解法と補助損失を回避した合理化アーキテクチャを組み込んだものである。
論文 参考訳(メタデータ) (2026-03-24T16:13:02Z) - Optimizing Speech Multi-View Feature Fusion through Conditional Computation [51.23624575321469]
自己教師付き学習(SSL)機能は、軽量で多目的な多視点音声表現を提供する。
SSLは、FBanksのような従来のスペクトル機能とアップデートの方向で競合する。
本稿では,条件計算に基づく新しい一般化された特徴融合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-14T12:12:06Z) - A Functional Extension of Semi-Structured Networks [2.482050942288848]
半構造化ネットワーク(SSN)は、深いニューラルネットワークを持つ付加モデルに精通した構造をマージする。
大規模データセットにインスパイアされた本研究では,SSNを機能データに拡張する方法について検討する。
本稿では,古典的機能回帰手法の優位性を保ちつつ,スケーラビリティを向上する機能的SSN法を提案する。
論文 参考訳(メタデータ) (2024-10-07T18:50:18Z) - GraphTransfer: A Generic Feature Fusion Framework for Collaborative Filtering [23.359028687426925]
我々は,GNNに基づく協調フィルタリングのための簡易かつ普遍的な機能融合フレームワークであるGraphTransferを提案する。
提案手法は,GNNを用いて,ユーザ-テム相互作用グラフからまずグラフ特徴と補助特徴を抽出することにより,異なるタイプの特徴を正確に融合する。
公開データセットに関する理論的分析と実験は、GraphTransferがCFタスクにおける他の機能融合メソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-08-11T14:47:34Z) - A Refreshed Similarity-based Upsampler for Direct High-Ratio Feature Upsampling [54.05517338122698]
一般的な類似性に基づく機能アップサンプリングパイプラインが提案されている。
本稿では,セマンティック・アウェアとディテール・アウェアの両方の観点から,明示的に制御可能なクエリキー機能アライメントを提案する。
我々は,モーザイクアーティファクトを緩和する上ではシンプルだが有効であるHR特徴に対して,きめ細かな近傍選択戦略を開発する。
論文 参考訳(メタデータ) (2024-07-02T14:12:21Z) - FECANet: Boosting Few-Shot Semantic Segmentation with Feature-Enhanced
Context-Aware Network [48.912196729711624]
Few-shot セマンティックセグメンテーション(Few-shot semantic segmentation)は、新しいクラスの各ピクセルを、わずかに注釈付きサポートイメージで検索するタスクである。
本稿では,クラス間の類似性に起因するマッチングノイズを抑制するために,機能拡張コンテキスト認識ネットワーク(FECANet)を提案する。
さらに,前景と背景の余分な対応関係を符号化する新たな相関再構成モジュールを提案する。
論文 参考訳(メタデータ) (2023-01-19T16:31:13Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - SPINE: Soft Piecewise Interpretable Neural Equations [0.0]
完全に接続されたネットワークはユビキタスだが解釈不能である。
本論文は,個々の部品に設定操作を施すことにより,ピースワイズに新しいアプローチを採っている(一部)。
完全に接続されたレイヤを解釈可能なレイヤに置き換えなければならない、さまざまなアプリケーションを見つけることができる。
論文 参考訳(メタデータ) (2021-11-20T16:18:00Z) - Infinite Feature Selection: A Graph-based Feature Filtering Approach [78.63188057505012]
グラフ内の経路として特徴のサブセットを考慮したフィルタリング機能選択フレームワークを提案する。
無限に進むことで、選択プロセスの計算複雑性を制限できる。
Inf-FSはほとんどどんな状況でも、つまり、保持するフィーチャの数が優先順位に固定されているときに、より良く振る舞うことを示す。
論文 参考訳(メタデータ) (2020-06-15T07:20:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。