論文の概要: Unmute the Patch Tokens: Rethinking Probing in Multi-Label Audio Classification
- arxiv url: http://arxiv.org/abs/2509.24901v2
- Date: Thu, 02 Oct 2025 11:39:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 14:32:17.147439
- Title: Unmute the Patch Tokens: Rethinking Probing in Multi-Label Audio Classification
- Title(参考訳): Unmute the Patch Tokens: Rethinking Probing in Multi-Label Audio Classification
- Authors: Lukas Rauch, René Heinrich, Houtan Ghaffari, Lukas Miklautz, Ilyass Moummad, Bernhard Sick, Christoph Scholz,
- Abstract要約: オーディオにおける自己教師型学習は、微調整をデフォルトとする。
本稿では,二項化プローブについて紹介する。二項化プローブは,プロトタイプを学習し,クラスワイズ情報アグリゲーションを行う軽量でシンプルなプーリング手法である。
我々の研究は、オーディオSSLモデルを評価するための競争的かつ効率的なパラダイムとして探索を確立し、コストのかかる微調整への依存に挑戦する。
- 参考スコア(独自算出の注目度): 8.07177858013243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although probing frozen models has become a standard evaluation paradigm, self-supervised learning in audio defaults to fine-tuning. A key reason is that global pooling creates an information bottleneck causing linear probes to misrepresent the embedding quality: The $\texttt{cls}$-token discards crucial token information about dispersed, localized events in multi-label audio. This weakness is rooted in the mismatch between the pretraining objective (operating globally) and the downstream task (localized events). Across a comprehensive benchmark of 13 datasets and 6 spectrogram-based encoders, we first investigate the global pooling bottleneck. We then introduce binarized prototypical probes: a lightweight and simple pooling method that learns prototypes to perform class-wise information aggregation. Despite its simplicity, our method notably outperforms linear and attentive probing. Our work establishes probing as a competitive and efficient paradigm for evaluating audio SSL models, challenging the reliance on costly fine-tuning.
- Abstract(参考訳): フリーズモデルの探索は標準的な評価パラダイムとなっているが、オーディオにおける自己教師型学習は微調整のデフォルトとなっている。
この$\texttt{cls}$-tokenは、分散されたローカライズされたイベントに関する重要なトークン情報をマルチラベルオーディオで破棄する。
この弱点は、事前訓練対象(グローバルに運用する)と下流タスク(ローカル化イベント)のミスマッチに根ざしている。
13のデータセットと6つのスペクトログラムベースのエンコーダの包括的なベンチマークで、まずグローバルプールのボトルネックを調査した。
次に、二項化原型プローブを導入し、クラスワイズ情報アグリゲーションを行うためのプロトタイプを学習する軽量でシンプルなプーリング手法を提案する。
その単純さにもかかわらず、我々の手法は特に線形および注意深い探索よりも優れている。
我々の研究は、オーディオSSLモデルを評価するための競争的かつ効率的なパラダイムとして探索を確立し、コストのかかる微調整への依存に挑戦する。
関連論文リスト
- Foster Adaptivity and Balance in Learning with Noisy Labels [26.309508654960354]
我々はtextbfSelf-adaptivtextbfE とクラスバランスtextbfD 方式でラベルノイズに対処するための textbfSED という新しい手法を提案する。
平均教師モデルは、ノイズの多いサンプルのラベルを修正するために使用される。
また,検出した雑音に異なる重みを割り当てる自己適応型およびクラスバランスのサンプル再重み付け機構を提案する。
論文 参考訳(メタデータ) (2024-07-03T03:10:24Z) - Combating Label Noise With A General Surrogate Model For Sample Selection [77.45468386115306]
本稿では,視覚言語サロゲートモデルCLIPを用いて,雑音の多いサンプルを自動的にフィルタリングする手法を提案する。
提案手法の有効性を実世界および合成ノイズデータセットで検証した。
論文 参考訳(メタデータ) (2023-10-16T14:43:27Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Prototypical Classifier for Robust Class-Imbalanced Learning [64.96088324684683]
埋め込みネットワークに付加的なパラメータを必要としないtextitPrototypealを提案する。
プロトタイプは、訓練セットがクラス不均衡であるにもかかわらず、すべてのクラスに対してバランスと同等の予測を生成する。
我々は, CIFAR-10LT, CIFAR-100LT, Webvision のデータセットを用いて, プロトタイプが芸術の状況と比較した場合, サブスタンスの改善が得られることを検証した。
論文 参考訳(メタデータ) (2021-10-22T01:55:01Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。