論文の概要: Sparse Autoencoders Make Audio Foundation Models more Explainable
- arxiv url: http://arxiv.org/abs/2509.24793v1
- Date: Mon, 29 Sep 2025 13:46:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.020835
- Title: Sparse Autoencoders Make Audio Foundation Models more Explainable
- Title(参考訳): Sparse Autoencodersは、オーディオファンデーションモデルをより説明しやすいものにする
- Authors: Théo Mariotte, Martin Lebourdais, Antonio Almudévar, Marie Tahon, Alfonso Ortega, Nicolas Dugué,
- Abstract要約: 我々はSparse Autoencoders (SAE) を用いて事前訓練されたモデルの隠れ表現を分析する。
SAEは元の表現とクラスラベルに関する情報の両方を保持し、内部構造を可能にする。
SAEは発声特性のゆがみを高め,それらの表現に符号化された要因を識別するための有効なツールとして確立する。
- 参考スコア(独自算出の注目度): 12.377299061408692
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Audio pretrained models are widely employed to solve various tasks in speech processing, sound event detection, or music information retrieval. However, the representations learned by these models are unclear, and their analysis mainly restricts to linear probing of the hidden representations. In this work, we explore the use of Sparse Autoencoders (SAEs) to analyze the hidden representations of pretrained models, focusing on a case study in singing technique classification. We first demonstrate that SAEs retain both information about the original representations and class labels, enabling their internal structure to provide insights into self-supervised learning systems. Furthermore, we show that SAEs enhance the disentanglement of vocal attributes, establishing them as an effective tool for identifying the underlying factors encoded in the representations.
- Abstract(参考訳): 音声事前学習モデルは、音声処理、音声イベント検出、音楽情報検索の様々な課題を解決するために広く利用されている。
しかし、これらのモデルによって学習された表現は不明確であり、その分析は主に隠れた表現の線形探索に制限される。
本研究では,Sparse Autoencoders (SAE) を用いて事前学習したモデルの隠れ表現を解析し,歌唱技法の分類におけるケーススタディに焦点をあてる。
まず、SAEが元の表現とクラスラベルに関する情報の両方を保持し、内部構造が自己教師付き学習システムへの洞察を提供することを実証した。
さらに,SAEは声質のゆがみを高め,それらの表現に符号化された要因を識別するための有効なツールとして確立した。
関連論文リスト
- Learning Robust Spatial Representations from Binaural Audio through Feature Distillation [64.36563387033921]
データラベルを必要とせずに音声の頑健な空間表現を学習するために,特徴蒸留に基づく事前学習ステージの利用について検討する。
実験により, 事前学習したモデルでは, 騒音および残響環境における性能が向上していることが示された。
論文 参考訳(メタデータ) (2025-08-28T15:43:15Z) - Audiovisual Masked Autoencoders [93.22646144125457]
我々は,音声視覚下層分類タスクにおいて,大幅な改善が達成できることを示す。
また,Epic Kitchens における最先端オーディオ映像の表現の伝達性について述べる。
論文 参考訳(メタデータ) (2022-12-09T17:34:53Z) - High Fidelity Visualization of What Your Self-Supervised Representation
Knows About [22.982471878833362]
本研究では,条件拡散に基づく生成モデル(RCDM)を用いて,自己教師付きモデルを用いて学習した表現を可視化する。
このモデルの生成品質は、条件付けとして使われる表現に忠実でありながら、最先端の生成モデルとどのように同等かを示す。
論文 参考訳(メタデータ) (2021-12-16T19:23:33Z) - Layer-wise Analysis of a Self-supervised Speech Representation Model [26.727775920272205]
自己教師付き学習アプローチは、音声表現モデルの事前学習に成功している。
事前訓練された表現そのものに符号化された情報のタイプや範囲についてはあまり研究されていない。
論文 参考訳(メタデータ) (2021-07-10T02:13:25Z) - Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。
映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。
その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文 参考訳(メタデータ) (2021-02-11T02:24:00Z) - Contrastive Learning of General-Purpose Audio Representations [33.15189569532155]
音声の汎用表現を学習するための自己教師付き事前学習手法であるCOLAを紹介する。
我々は、コンピュータビジョンと強化学習のコントラスト学習の最近の進歩に基づいて、軽量で実装が容易なオーディオモデルを設計する。
論文 参考訳(メタデータ) (2020-10-21T11:56:22Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z) - COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio
Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。
組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文 参考訳(メタデータ) (2020-06-15T13:17:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。