論文の概要: Discovering Interpretable Concepts in Large Generative Music Models
- arxiv url: http://arxiv.org/abs/2505.18186v1
- Date: Sun, 18 May 2025 19:44:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.133194
- Title: Discovering Interpretable Concepts in Large Generative Music Models
- Title(参考訳): 大規模生成音楽モデルにおける解釈可能な概念の発見
- Authors: Nikhil Singh, Manuel Cherep, Pattie Maes,
- Abstract要約: スパースオートエンコーダ(SAE)を用いた音楽概念発見手法を提案する。
提案手法は,多数の特徴を抽出し,自動ラベリングと評価パイプラインを作成することで評価する。
以上の結果から,既存の理論や自然言語には全く相反しない,親しみやすい音楽概念と反直観的パターンの両方が明らかとなった。
- 参考スコア(独自算出の注目度): 23.427995912149385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The fidelity with which neural networks can now generate content such as music presents a scientific opportunity: these systems appear to have learned implicit theories of the structure of such content through statistical learning alone. This could offer a novel lens on theories of human-generated media. Where these representations align with traditional constructs (e.g. chord progressions in music), they demonstrate how these can be inferred from statistical regularities. Where they diverge, they highlight potential limits in our theoretical frameworks -- patterns that we may have overlooked but that nonetheless hold significant explanatory power. In this paper, we focus on the specific case of music generators. We introduce a method to discover musical concepts using sparse autoencoders (SAEs), extracting interpretable features from the residual stream activations of a transformer model. We evaluate this approach by extracting a large set of features and producing an automatic labeling and evaluation pipeline for them. Our results reveal both familiar musical concepts and counterintuitive patterns that lack clear counterparts in existing theories or natural language altogether. Beyond improving model transparency, our work provides a new empirical tool that might help discover organizing principles in ways that have eluded traditional methods of analysis and synthesis.
- Abstract(参考訳): ニューラルネットワークが音楽などのコンテンツを生成できる忠実さは科学的機会となり、これらのシステムは統計的学習だけでそのようなコンテンツの構造に関する暗黙の理論を学んだようである。
これは人為的なメディアの理論に新しいレンズを提供するかもしれない。
これらの表現が伝統的な構成(例えば、音楽における和音の進行)と一致している場合、統計正規性からこれらの表現がどのように推測されるかを示す。
それらが分岐するところでは、私たちの理論的な枠組みの潜在的な限界、見過ごされたかもしれないパターンが強調されますが、それでもかなりの説明力を持っています。
本稿では,音楽ジェネレータの特定の事例に着目した。
トランスモデルの残ストリームアクティベーションから解釈可能な特徴を抽出し,スパースオートエンコーダ(SAE)を用いて音楽概念を発見する手法を提案する。
提案手法は,多数の特徴を抽出し,自動ラベリングと評価パイプラインを作成することで評価する。
以上の結果から,既存の理論や自然言語には全く相反しない,親しみやすい音楽概念と反直観的パターンの両方が明らかとなった。
モデルの透明性の改善以外にも、私たちの研究は、従来の分析と合成の方法から逸脱した方法で、原則を組織化するのに役立つような、新しい経験的なツールを提供しています。
関連論文リスト
- Concept-Guided Interpretability via Neural Chunking [54.73787666584143]
ニューラルネットワークは、トレーニングデータの規則性を反映した生の集団活動のパターンを示す。
本稿では,ラベルの可利用性と次元性に基づいて,これら新たな実体を抽出する3つの手法を提案する。
私たちの研究は、認知原則と自然主義的データの構造の両方を活用する、解釈可能性の新しい方向性を指し示しています。
論文 参考訳(メタデータ) (2025-05-16T13:49:43Z) - I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - Distilling Symbolic Priors for Concept Learning into Neural Networks [9.915299875869046]
メタラーニングにより,シンボルベイズモデルから事前分布を蒸留することにより,インダクティブバイアスを人工知能ニューラルネットワークでインスタンス化できることを示す。
このアプローチを用いて、短い論理式として表現された概念に対する帰納的バイアスを持つニューラルネットワークを作成する。
論文 参考訳(メタデータ) (2024-02-10T20:06:26Z) - Unraveling Feature Extraction Mechanisms in Neural Networks [10.13842157577026]
本稿では, ニューラルネットワークカーネル(NTK)に基づく理論的手法を提案し, そのメカニズムを解明する。
これらのモデルが勾配降下時の統計的特徴をどのように活用し、最終決定にどのように統合されるかを明らかにする。
自己注意モデルとCNNモデルはn-gramの学習の限界を示すが、乗算モデルはこの領域で優れていると考えられる。
論文 参考訳(メタデータ) (2023-10-25T04:22:40Z) - Deep Generative Models of Music Expectation [2.900810893770134]
本稿では, 拡散モデルを用いて, 最新の深層確率生成モデルを用いて, 音楽入力シーケンスの近似確率を計算することを提案する。
従来の研究とは異なり、ディープニューラルネットワークによってパラメータ化されたこのような生成モデルは、トレーニングセット自体から直接、複雑な非線形特徴を学習することができる。
本研究では,事前学習した拡散モデルが,被測定対象の「ライキング」評価と負の二次的関係を示す音楽的前提値をもたらすことを示す。
論文 参考訳(メタデータ) (2023-10-05T12:25:39Z) - A Recursive Bateson-Inspired Model for the Generation of Semantic Formal
Concepts from Spatial Sensory Data [77.34726150561087]
本稿では,複雑な感覚データから階層構造を生成するための記号のみの手法を提案する。
このアプローチは、概念や概念の創始の鍵としてのバテソンの差異の概念に基づいている。
このモデルは、トレーニングなしでかなりリッチだが人間に読まれる概念表現を生成することができる。
論文 参考訳(メタデータ) (2023-07-16T15:59:13Z) - Minding Language Models' (Lack of) Theory of Mind: A Plug-and-Play
Multi-Character Belief Tracker [72.09076317574238]
ToMは,読解における文字の信念状態を調べるためのプラグアンドプレイ方式である。
ToMは、教師付きベースラインと比較して、配電性能が堅牢でありながら、ゼロオーダー設定でのオフ・ザ・シェルフニューラルネットワーク理論の考え方を強化する。
論文 参考訳(メタデータ) (2023-06-01T17:24:35Z) - Sequence Generation using Deep Recurrent Networks and Embeddings: A
study case in music [69.2737664640826]
本稿では,異なる種類の記憶機構(メモリセル)について評価し,音楽合成分野におけるその性能について検討する。
提案したアーキテクチャの性能を自動評価するために,定量的な測定値のセットが提示される。
論文 参考訳(メタデータ) (2020-12-02T14:19:19Z) - From Artificial Neural Networks to Deep Learning for Music Generation --
History, Concepts and Trends [0.0]
本稿では,ディープラーニング技術に基づく音楽生成のチュートリアルを提供する。
1980年代後半から、音楽生成のための人工ニューラルネットワークを用いて、いくつかの初期の作品を分析している。
論文 参考訳(メタデータ) (2020-04-07T00:33:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。