論文の概要: Learning Interpretable Features in Audio Latent Spaces via Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2510.23802v1
- Date: Mon, 27 Oct 2025 19:35:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.494201
- Title: Learning Interpretable Features in Audio Latent Spaces via Sparse Autoencoders
- Title(参考訳): スパースオートエンコーダによる音声潜在空間の解釈可能な特徴の学習
- Authors: Nathan Paek, Yongyi Zang, Qihui Yang, Randal Leistikow,
- Abstract要約: 我々は、音声オートエンコーダのラテントでSAEを訓練し、SAE特徴から線形マッピングを学習し、音響特性を識別する。
これにより、AI音楽生成プロセスの制御可能な操作と分析が可能になる。
- 参考スコア(独自算出の注目度): 4.757470067755357
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While sparse autoencoders (SAEs) successfully extract interpretable features from language models, applying them to audio generation faces unique challenges: audio's dense nature requires compression that obscures semantic meaning, and automatic feature characterization remains limited. We propose a framework for interpreting audio generative models by mapping their latent representations to human-interpretable acoustic concepts. We train SAEs on audio autoencoder latents, then learn linear mappings from SAE features to discretized acoustic properties (pitch, amplitude, and timbre). This enables both controllable manipulation and analysis of the AI music generation process, revealing how acoustic properties emerge during synthesis. We validate our approach on continuous (DiffRhythm-VAE) and discrete (EnCodec, WavTokenizer) audio latent spaces, and analyze DiffRhythm, a state-of-the-art text-to-music model, to demonstrate how pitch, timbre, and loudness evolve throughout generation. While our work is only done on audio modality, our framework can be extended to interpretable analysis of visual latent space generation models.
- Abstract(参考訳): スパースオートエンコーダ (SAEs) は言語モデルから解釈可能な特徴を抽出することに成功したが、音声生成にそれらを適用することは独特の課題に直面している。
本稿では,その潜在表現を人間の解釈可能な音響概念にマッピングすることで,音声生成モデルを解釈するフレームワークを提案する。
我々は、音声オートエンコーダのラテントでSAEを訓練し、SAEの特徴から線形マッピングを学習し、音響特性(ピッチ、振幅、音色)を識別する。
これにより、AI音楽生成プロセスの制御可能な操作と分析の両方が可能になり、合成中に音響特性がどのように出現するかを明らかにする。
我々は、連続(DiffRhythm-VAE)と離散(EnCodec, WavTokenizer)音声潜伏空間に対するアプローチを検証するとともに、最先端のテキスト・音楽モデルであるDiffRhythmを分析し、音高、音色、音質が世代を通してどのように進化するかを実証する。
我々の研究は音響モーダリティについてのみ行われているが、我々のフレームワークは視覚潜在空間生成モデルの解釈可能な解析に拡張することができる。
関連論文リスト
- On the Semantic Latent Space of Diffusion-Based Text-to-Speech Models [15.068637971987224]
DDMデノイザの遅延ボトルネックアクティベーションからなる冷凍TSモデルの潜時空間について検討する。
この空間には豊富な意味情報が含まれており、教師なしと教師なしの両方で、その内部の意味的方向を見つけるための新しい方法をいくつか紹介する。
これにより、さらなるトレーニング、アーキテクチャの変更、データ要求なしに、オフザシェルフオーディオ編集が可能になることを実証する。
論文 参考訳(メタデータ) (2024-02-19T16:22:21Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - AudioLM: a Language Modeling Approach to Audio Generation [59.19364975706805]
本稿では,長期的整合性を有する高品質オーディオ生成フレームワークであるAudioLMを紹介する。
本稿では,既存の音声トークンが,再建品質と長期構造との間に異なるトレードオフをもたらすことを示す。
我々は,コヒーレントピアノ音楽の継続を生成することによって,我々のアプローチが音声を超えてどのように拡張されるかを実証する。
論文 参考訳(メタデータ) (2022-09-07T13:40:08Z) - Timbre latent space: exploration and creative aspects [1.3764085113103222]
近年の研究では、教師なしモデルがオートエンコーダを用いて可逆的な音声表現を学習できることが示されている。
生成ニューラルネットワークによって、音色操作の新たな可能性が実現されている。
論文 参考訳(メタデータ) (2020-08-04T07:08:04Z) - Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。
音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。
オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文 参考訳(メタデータ) (2020-07-13T12:35:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。