論文の概要: ConceptCaps -- a Distilled Concept Dataset for Interpretability in Music Models
- arxiv url: http://arxiv.org/abs/2601.14157v1
- Date: Tue, 20 Jan 2026 17:04:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.421863
- Title: ConceptCaps -- a Distilled Concept Dataset for Interpretability in Music Models
- Title(参考訳): ConceptCaps - 音楽モデルの解釈可能性のための拡張概念データセット
- Authors: Bruno Sienkiewicz, Łukasz Neumann, Mateusz Modrzejewski,
- Abstract要約: ConceptCapsは、200の属性の分類の明確なラベルを持つ23kのミュージックキャプションオーディオ三重奏曲のデータセットである。
VAEは可塑性属性共起パターンを学習し、微調整されたLCMは属性リストを専門的な記述に変換し、MusicGenは対応するオーディオを合成する。
音声テキストアライメント(CLAP)、言語品質指標(BERTScore, MAUVE)、およびTCAV分析により、概念プローブが音楽的に意味のあるパターンを復元することを確認した。
- 参考スコア(独自算出の注目度): 0.10923877073891443
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Concept-based interpretability methods like TCAV require clean, well-separated positive and negative examples for each concept. Existing music datasets lack this structure: tags are sparse, noisy, or ill-defined. We introduce ConceptCaps, a dataset of 23k music-caption-audio triplets with explicit labels from a 200-attribute taxonomy. Our pipeline separates semantic modeling from text generation: a VAE learns plausible attribute co-occurrence patterns, a fine-tuned LLM converts attribute lists into professional descriptions, and MusicGen synthesizes corresponding audio. This separation improves coherence and controllability over end-to-end approaches. We validate the dataset through audio-text alignment (CLAP), linguistic quality metrics (BERTScore, MAUVE), and TCAV analysis confirming that concept probes recover musically meaningful patterns. Dataset and code are available online.
- Abstract(参考訳): TCAVのような概念ベースの解釈可能性手法は、それぞれの概念に対して、きれいで、よく区切られたポジティブな、ネガティブな例を必要とする。
既存の音楽データセットには、この構造がない。
提案するConceptCapsは,200の分類の明確なラベルを付した23kのオーディオ三重奏曲のデータセットである。
我々のパイプラインはセマンティックモデリングをテキスト生成から切り離し、VAEは可塑性属性共起パターンを学習し、微調整 LLM は属性リストを専門的な記述に変換し、MusicGen は対応するオーディオを合成する。
この分離により、エンドツーエンドのアプローチよりも一貫性と制御性が向上する。
音声テキストアライメント(CLAP)、言語品質指標(BERTScore, MAUVE)、およびTCAV分析により、概念プローブが音楽的に意味のあるパターンを復元することを確認した。
データセットとコードはオンラインで入手できる。
関連論文リスト
- Learning Interpretable Features in Audio Latent Spaces via Sparse Autoencoders [4.757470067755357]
我々は、音声オートエンコーダのラテントでSAEを訓練し、SAE特徴から線形マッピングを学習し、音響特性を識別する。
これにより、AI音楽生成プロセスの制御可能な操作と分析が可能になる。
論文 参考訳(メタデータ) (2025-10-27T19:35:39Z) - AudioCodecBench: A Comprehensive Benchmark for Audio Codec Evaluation [16.047087043580053]
MLLM(Multimodal Large Language Models)は、音声や音楽に広く応用されている。
意味のみのテキストトークンとは異なり、音声トークンはグローバルな意味的コンテンツをキャプチャし、きめ細かい音響的詳細を保存する必要がある。
本稿では,意味的および音響的トークンの適切な定義を提供し,体系的な評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-02T14:15:22Z) - ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [47.14083940177122]
ThinkSoundは、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。
提案手法は,3つの相補的な段階 – セマンティック・コヒーレント,インタラクティブなオブジェクト中心の改良,ターゲット編集 – に分解する。
実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-26T16:32:06Z) - Bridging the Gap Between Semantic and User Preference Spaces for Multi-modal Music Representation Learning [10.558648773612191]
本稿では,意味的視点からユーザ視点への類似性を階層的にモデル化する新しい階層型2段階コントラスト学習法を提案する。
拡張性のあるオーディオエンコーダを考案し,テキストエンコーダとして事前学習されたBERTモデルを活用して,大規模コントラスト付き事前学習による音声テキストセマンティクスの学習を行う。
論文 参考訳(メタデータ) (2025-05-29T09:50:07Z) - Music Genre Classification using Large Language Models [50.750620612351284]
本稿では,音楽ジャンル分類のための事前学習された大規模言語モデル(LLM)のゼロショット機能を利用する。
提案手法は、音声信号を20ミリ秒のチャンクに分割し、畳み込み特徴エンコーダで処理する。
推論中、個々のチャンクの予測は最終ジャンル分類のために集約される。
論文 参考訳(メタデータ) (2024-10-10T19:17:56Z) - Evaluation of pretrained language models on music understanding [0.0]
その結果, 言語モデル(LLM)は, 1) アクセシビリティ, 2) 否定をモデル化できないこと, 3) 特定の単語の存在に対する感受性に悩まされていることがわかった。
我々はこれらの特性を三重項に基づく精度として定量化し、階層的オントロジーにおいてラベルの相対的類似性をモデル化する能力を評価した。
比較的高い精度が報告されているにもかかわらず、6つのモデルすべてに矛盾があることは明らかであり、既製のLLMは使用前に音楽に適応する必要があることを示唆している。
論文 参考訳(メタデータ) (2024-09-17T14:44:49Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。