論文の概要: Discovering Interpretable Concepts in Large Generative Music Models
- arxiv url: http://arxiv.org/abs/2505.18186v1
- Date: Sun, 18 May 2025 19:44:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.133194
- Title: Discovering Interpretable Concepts in Large Generative Music Models
- Title(参考訳): 大規模生成音楽モデルにおける解釈可能な概念の発見
- Authors: Nikhil Singh, Manuel Cherep, Pattie Maes,
- Abstract要約: スパースオートエンコーダ(SAE)を用いた音楽概念発見手法を提案する。
提案手法は,多数の特徴を抽出し,自動ラベリングと評価パイプラインを作成することで評価する。
以上の結果から,既存の理論や自然言語には全く相反しない,親しみやすい音楽概念と反直観的パターンの両方が明らかとなった。
- 参考スコア(独自算出の注目度): 23.427995912149385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The fidelity with which neural networks can now generate content such as music presents a scientific opportunity: these systems appear to have learned implicit theories of the structure of such content through statistical learning alone. This could offer a novel lens on theories of human-generated media. Where these representations align with traditional constructs (e.g. chord progressions in music), they demonstrate how these can be inferred from statistical regularities. Where they diverge, they highlight potential limits in our theoretical frameworks -- patterns that we may have overlooked but that nonetheless hold significant explanatory power. In this paper, we focus on the specific case of music generators. We introduce a method to discover musical concepts using sparse autoencoders (SAEs), extracting interpretable features from the residual stream activations of a transformer model. We evaluate this approach by extracting a large set of features and producing an automatic labeling and evaluation pipeline for them. Our results reveal both familiar musical concepts and counterintuitive patterns that lack clear counterparts in existing theories or natural language altogether. Beyond improving model transparency, our work provides a new empirical tool that might help discover organizing principles in ways that have eluded traditional methods of analysis and synthesis.
- Abstract(参考訳): ニューラルネットワークが音楽などのコンテンツを生成できる忠実さは科学的機会となり、これらのシステムは統計的学習だけでそのようなコンテンツの構造に関する暗黙の理論を学んだようである。
これは人為的なメディアの理論に新しいレンズを提供するかもしれない。
これらの表現が伝統的な構成(例えば、音楽における和音の進行)と一致している場合、統計正規性からこれらの表現がどのように推測されるかを示す。
それらが分岐するところでは、私たちの理論的な枠組みの潜在的な限界、見過ごされたかもしれないパターンが強調されますが、それでもかなりの説明力を持っています。
本稿では,音楽ジェネレータの特定の事例に着目した。
トランスモデルの残ストリームアクティベーションから解釈可能な特徴を抽出し,スパースオートエンコーダ(SAE)を用いて音楽概念を発見する手法を提案する。
提案手法は,多数の特徴を抽出し,自動ラベリングと評価パイプラインを作成することで評価する。
以上の結果から,既存の理論や自然言語には全く相反しない,親しみやすい音楽概念と反直観的パターンの両方が明らかとなった。
モデルの透明性の改善以外にも、私たちの研究は、従来の分析と合成の方法から逸脱した方法で、原則を組織化するのに役立つような、新しい経験的なツールを提供しています。
関連論文リスト
- Beyond the Black Box: Identifiable Interpretation and Control in Generative Models via Causal Minimality [52.57416398859353]
因果的最小性は、明確な因果的解釈と頑健でコンポーネント単位で識別可能な制御を持つ拡散視覚と自己回帰言語モデルの潜在表現を許容できることを示す。
我々は階層的選択モデルのための新しい理論的枠組みを導入し、より高レベルな概念は低レベルの変数の制約された構成から生まれる。
これらの因果的基礎を持つ概念は、きめ細かいモデルステアリングのレバーとして機能し、透明で信頼性の高いシステムへの道を開く。
論文 参考訳(メタデータ) (2025-12-11T14:59:14Z) - Concept-Based Mechanistic Interpretability Using Structured Knowledge Graphs [3.429783703166407]
我々のフレームワークは、内部モデルコンポーネントを通して高レベルのセマンティック属性がどのように出現し、相互作用し、伝播するかを分析することによって、モデル行動のグローバルな分離を可能にします。
重要なイノベーションは、私たちがBAGELと名付けた視覚化プラットフォームです。
私たちのフレームワークはモデルに依存しないスケーラブルで、データセットバイアスの存在下でディープラーニングモデルがどのように一般化(あるいは失敗)するかを深く理解するのに役立ちます。
論文 参考訳(メタデータ) (2025-07-08T09:30:20Z) - Concept-Guided Interpretability via Neural Chunking [54.73787666584143]
ニューラルネットワークは、トレーニングデータの規則性を反映した生の集団活動のパターンを示す。
本稿では,ラベルの可利用性と次元性に基づいて,これら新たな実体を抽出する3つの手法を提案する。
私たちの研究は、認知原則と自然主義的データの構造の両方を活用する、解釈可能性の新しい方向性を指し示しています。
論文 参考訳(メタデータ) (2025-05-16T13:49:43Z) - I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - Restyling Unsupervised Concept Based Interpretable Networks with Generative Models [14.604305230535026]
本稿では,事前学習された生成モデルの潜在空間に概念特徴をマッピングすることに依存する新しい手法を提案する。
本手法の有効性を,解釈可能な予測ネットワークの精度,再現性,学習概念の忠実性,一貫性の観点から定量的に検証した。
論文 参考訳(メタデータ) (2024-07-01T14:39:41Z) - Distilling Symbolic Priors for Concept Learning into Neural Networks [9.915299875869046]
メタラーニングにより,シンボルベイズモデルから事前分布を蒸留することにより,インダクティブバイアスを人工知能ニューラルネットワークでインスタンス化できることを示す。
このアプローチを用いて、短い論理式として表現された概念に対する帰納的バイアスを持つニューラルネットワークを作成する。
論文 参考訳(メタデータ) (2024-02-10T20:06:26Z) - Advancing Ante-Hoc Explainable Models through Generative Adversarial Networks [24.45212348373868]
本稿では,視覚的分類タスクにおけるモデル解釈可能性と性能を向上させるための新しい概念学習フレームワークを提案する。
本手法では, 教師なし説明生成器を一次分類器ネットワークに付加し, 対角訓練を利用する。
この研究は、タスク整合概念表現を用いた本質的に解釈可能なディープビジョンモデルを構築するための重要なステップを示す。
論文 参考訳(メタデータ) (2024-01-09T16:16:16Z) - Unraveling Feature Extraction Mechanisms in Neural Networks [10.13842157577026]
本稿では, ニューラルネットワークカーネル(NTK)に基づく理論的手法を提案し, そのメカニズムを解明する。
これらのモデルが勾配降下時の統計的特徴をどのように活用し、最終決定にどのように統合されるかを明らかにする。
自己注意モデルとCNNモデルはn-gramの学習の限界を示すが、乗算モデルはこの領域で優れていると考えられる。
論文 参考訳(メタデータ) (2023-10-25T04:22:40Z) - Deep Generative Models of Music Expectation [2.900810893770134]
本稿では, 拡散モデルを用いて, 最新の深層確率生成モデルを用いて, 音楽入力シーケンスの近似確率を計算することを提案する。
従来の研究とは異なり、ディープニューラルネットワークによってパラメータ化されたこのような生成モデルは、トレーニングセット自体から直接、複雑な非線形特徴を学習することができる。
本研究では,事前学習した拡散モデルが,被測定対象の「ライキング」評価と負の二次的関係を示す音楽的前提値をもたらすことを示す。
論文 参考訳(メタデータ) (2023-10-05T12:25:39Z) - A Recursive Bateson-Inspired Model for the Generation of Semantic Formal
Concepts from Spatial Sensory Data [77.34726150561087]
本稿では,複雑な感覚データから階層構造を生成するための記号のみの手法を提案する。
このアプローチは、概念や概念の創始の鍵としてのバテソンの差異の概念に基づいている。
このモデルは、トレーニングなしでかなりリッチだが人間に読まれる概念表現を生成することができる。
論文 参考訳(メタデータ) (2023-07-16T15:59:13Z) - Minding Language Models' (Lack of) Theory of Mind: A Plug-and-Play
Multi-Character Belief Tracker [72.09076317574238]
ToMは,読解における文字の信念状態を調べるためのプラグアンドプレイ方式である。
ToMは、教師付きベースラインと比較して、配電性能が堅牢でありながら、ゼロオーダー設定でのオフ・ザ・シェルフニューラルネットワーク理論の考え方を強化する。
論文 参考訳(メタデータ) (2023-06-01T17:24:35Z) - Learning Unsupervised Hierarchies of Audio Concepts [13.400413055847084]
コンピュータビジョンでは、正しい抽象化レベルに説明を調整するために概念学習が提案された。
本稿では,概念学習を音楽の領域に適用し,その特異性について述べる。
音声から多数の音楽概念を学習し,それらを階層化し,相互関係を明らかにする手法を提案する。
論文 参考訳(メタデータ) (2022-07-21T16:34:31Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - Sequence Generation using Deep Recurrent Networks and Embeddings: A
study case in music [69.2737664640826]
本稿では,異なる種類の記憶機構(メモリセル)について評価し,音楽合成分野におけるその性能について検討する。
提案したアーキテクチャの性能を自動評価するために,定量的な測定値のセットが提示される。
論文 参考訳(メタデータ) (2020-12-02T14:19:19Z) - Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。
本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。
本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T18:05:36Z) - From Artificial Neural Networks to Deep Learning for Music Generation --
History, Concepts and Trends [0.0]
本稿では,ディープラーニング技術に基づく音楽生成のチュートリアルを提供する。
1980年代後半から、音楽生成のための人工ニューラルネットワークを用いて、いくつかの初期の作品を分析している。
論文 参考訳(メタデータ) (2020-04-07T00:33:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。