論文の概要: S-SONDO: Self-Supervised Knowledge Distillation for General Audio Foundation Models
- arxiv url: http://arxiv.org/abs/2604.24933v1
- Date: Mon, 27 Apr 2026 19:20:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.568061
- Title: S-SONDO: Self-Supervised Knowledge Distillation for General Audio Foundation Models
- Title(参考訳): S-SONDO:一般音響基礎モデルのための自己監督型知識蒸留
- Authors: Mohammed Ali El Adlouni, Aurian Quelennec, Pierre Chouteau, Geoffroy Peeters, Slim Essid,
- Abstract要約: S-SONDOは、出力埋め込みのみを使用して一般的なオーディオモデルを蒸留する最初のフレームワークである。
2つの音響基礎モデルを3つの効率的な学生に蒸留することで,その効果を実証する。
- 参考スコア(独自算出の注目度): 24.103531000455003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: General audio foundation models have recently achieved remarkable progress, enabling strong performance across diverse tasks. However, state-of-the-art models remain extremely large, often with hundreds of millions of parameters, leading to high inference costs and limited deployability on edge devices. Knowledge distillation is a proven strategy for model compression, but prior work in audio has mostly focused on supervised settings, relying on class logits, intermediate features, or architecture-specific techniques. Such assumptions exclude models that output only embeddings, such as self-supervised or metric-learning models. We introduce S-SONDO (Self-Supervised KnOwledge DistillatioN for General AuDio FOundation Models), the first framework to distill general audio models using only their output embeddings. By avoiding the need for logits or layer-level alignment, S-SONDO is architecture-agnostic and broadly applicable to embedding-based teachers. We demonstrate its effectiveness by distilling two audio foundation models into three efficient students that are up to 61 times smaller while retaining up to 96% of teacher performance. We also provide practical insights on loss choice and clustering-based balanced data sampling. Code is available here: https://github.com/MedAliAdlouni/ssondo.
- Abstract(参考訳): 一般的なオーディオ基礎モデルは、最近顕著な進歩を遂げ、多様なタスクで高いパフォーマンスを実現している。
しかし、最先端モデルは極端に大きく、しばしば数億のパラメータを持ち、高い推論コストとエッジデバイスへのデプロイ可能性に繋がる。
知識蒸留は、モデル圧縮の実証された戦略であるが、オーディオにおける以前の作業は、主にクラスロジット、中間機能、アーキテクチャ固有の技術に依存する教師付き設定に重点を置いていた。
このような仮定は、自己監督モデルやメートル法学習モデルのような埋め込みのみを出力するモデルを除外する。
S-SONDO (Self-Supervised KnOwledge DistillatioN for General AuDio Foundation Models)を導入し,出力埋め込みのみを用いて一般的な音響モデルを蒸留する最初のフレームワークを提案する。
ログや層レベルのアライメントを不要にすることで、S-SONDOはアーキテクチャに依存しず、埋め込みベースの教師に広く適用できる。
教師のパフォーマンスの最大96%を保ちながら、最大61倍の効率のよい3人の生徒に2つの基礎モデルを蒸留することにより、その効果を実証する。
また、損失選択とクラスタリングに基づくバランスデータサンプリングに関する実践的な洞察を提供する。
コードは、https://github.com/MedAliAdlouni/ssondo.comで入手できる。
関連論文リスト
- Foundry: Distilling 3D Foundation Models for the Edge [15.177160184417575]
Foundation Model Distillation (FMD)は、大規模なSSLモデルをコンパクトプロキシに圧縮するための新しいパラダイムである。
3DポイントクラウドのためのFMDの最初の実装であるFoundryを紹介します。
論文 参考訳(メタデータ) (2025-11-25T07:53:56Z) - Keep what you need : extracting efficient subnetworks from large audio representation models [0.8798470556253869]
事前学習された表現モデルの層間において学習可能なバイナリマスクを導入する。
下流タスクでエンド・ツー・エンドのモデルをトレーニングするとき、私たちは全体目標に疎結合による損失を加えます。
トレーニングが完了すると、マスクされた計算ユニットがネットワークから削除され、大幅なパフォーマンス向上が示唆される。
論文 参考訳(メタデータ) (2025-02-18T15:04:33Z) - High-Performance Few-Shot Segmentation with Foundation Models: An Empirical Study [64.06777376676513]
基礎モデルに基づく数ショットセグメンテーション(FSS)フレームワークを開発した。
具体的には、基礎モデルから暗黙的な知識を抽出し、粗い対応を構築するための簡単なアプローチを提案する。
2つの広く使われているデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-10T08:04:11Z) - Leveraging Foundation Models via Knowledge Distillation in Multi-Object Tracking: Distilling DINOv2 Features to FairMOT [0.5999777817331317]
この研究は、知識蒸留を用いて、DINOv2と呼ばれる1つの基礎モデルを活用することを試みている。
その結果,提案手法は特定のシナリオの改善を示すが,本来のFairMOTモデルよりも常に優れているわけではないことが示唆された。
論文 参考訳(メタデータ) (2024-07-25T14:21:35Z) - AM-RADIO: Agglomerative Vision Foundation Model -- Reduce All Domains Into One [47.58919672657824]
このアプローチをAM-RADIO(Agglomerative Model -- すべてのドメインを1に還元する)と名付けます。
教師モデルより少なくとも7倍高速な新しいアーキテクチャ(E-RADIO)を開発した。
包括的なベンチマークプロセスでは、ImageNet分類、ADE20kセマンティックセグメンテーション、COCOオブジェクト検出、LLaVa-1.5フレームワークなどの下流タスクをカバーしています。
論文 参考訳(メタデータ) (2023-12-10T17:07:29Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。