論文の概要: SpurAudio: A Benchmark for Studying Shortcut Learning in Few-Shot Audio Classification
- arxiv url: http://arxiv.org/abs/2605.13672v1
- Date: Wed, 13 May 2026 15:32:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.134831
- Title: SpurAudio: A Benchmark for Studying Shortcut Learning in Few-Shot Audio Classification
- Title(参考訳): SpurAudio:Few-Shotオーディオ分類におけるショートカット学習のベンチマーク
- Authors: Giries Abu Ayoub, Morad Tukan, Loay Mualem,
- Abstract要約: FSC(Few-shot Classification)は限られたラベル付きデータから学習するために広く用いられているが、ほとんどの評価では、ターゲット概念は文脈的手がかりとは無関係であると暗黙的に仮定している。
実世界の設定では、サンプルはリッチなコンテキストにしばしば現れ、モデルが前景のコンテンツと背景の信号の間の刺激的な相関を活用できる。
SpurAudioは、音声における前景イベントと背景環境の自然な分離性を利用して、サポートとクエリセット間のコンテキストシフトの制御されたマルチレベル評価を可能にするベンチマークである。
- 参考スコア(独自算出の注目度): 4.791940743080381
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-shot classification (FSC) is widely used for learning from limited labeled data, yet most evaluations implicitly assume that target concepts are independent of contextual cues. In real-world settings, however, examples often appear within rich contexts, allowing models to exploit spurious correlations between foreground content and background signals. While such effects have been studied in few-shot image classification, their role in few-shot audio classification remains largely unexplored, and existing audio benchmarks offer limited control over contextual structure. We introduce SpurAudio, a benchmark that leverages the natural separability of foreground events and background environments in audio to enable controlled, multi-level evaluation of contextual shifts across support and query sets. Using this benchmark, we show that many state-of-the-art few-shot methods suffer severe performance degradation when background correlations are disrupted, despite achieving similar accuracy under standard evaluation protocols. Crucially, this vulnerability persists even in large pretrained audio foundation models, ruling out limited backbone capacity as an explanation. Moreover, methods that appear comparable under conventional benchmarks can exhibit markedly different sensitivity to spurious correlations, revealing systematic algorithmic strengths and vulnerabilities tied to how feature representations interact with classifier heads at inference time. These findings provide new insight into the behavior of few-shot methods in audio and highlight the need for benchmarks that explicitly probe context dependence when evaluating FSC models.
- Abstract(参考訳): FSC(Few-shot Classification)は限られたラベル付きデータから学習するために広く用いられているが、ほとんどの評価では、ターゲット概念は文脈的手がかりとは無関係であると暗黙的に仮定している。
しかし、実世界の設定では、サンプルはリッチな文脈にしばしば現れ、モデルが前景のコンテンツと背景の信号の間の急激な相関を活用できる。
このような効果は、少数ショット画像分類において研究されているが、少数ショット音声分類におけるそれらの役割はほとんど解明されていないままであり、既存の音声ベンチマークは文脈構造を限定的に制御している。
SpurAudioは、音声における前景イベントと背景環境の自然な分離性を利用して、サポートとクエリセット間のコンテキストシフトの制御されたマルチレベル評価を可能にするベンチマークである。
このベンチマークを用いて、標準的な評価プロトコルでは類似の精度を達成できたが、背景相関が乱れれば、多くの最先端のショット手法が深刻な性能劣化を被ることを示した。
重要なことに、この脆弱性は大規模な事前訓練されたオーディオ基礎モデルでも持続し、説明としてバックボーン容量の制限を除外する。
さらに、従来のベンチマークに匹敵する手法では、スプリアス相関に対する感度が著しく異なり、推論時に特徴表現がクラシファイアヘッドとどのように相互作用するかに結びついている、体系的なアルゴリズムの強みと脆弱性が明らかになる。
これらの結果から,FSCモデルを評価する際の文脈依存性を明示的に調査するベンチマークの必要性が明らかになった。
関連論文リスト
- WESR: Scaling and Evaluating Word-level Event-Speech Recognition [59.21814194620928]
音声は言語情報だけでなく、笑ったり泣いたりするような豊富な非言語的な音声イベントも伝達する。
我々は,21の発声イベントの分類を改良し,個別(スタンドアローン)と連続(音声と混合)に分類した。
改良された分類法に基づくWESR-Benchは,新しい位置認識プロトコルを備えた専門家アノテート評価セット(900以上の発話)である。
論文 参考訳(メタデータ) (2026-01-08T02:23:21Z) - Context-aware TFL: A Universal Context-aware Contrastive Learning Framework for Temporal Forgery Localization [60.73623588349311]
本研究では,時間的フォージェリーローカライゼーションのための共通文脈対応コントラスト学習フレームワーク (UniCaCLF) を提案する。
提案手法は教師付きコントラスト学習を利用して,異常検出による偽造瞬間の検出と同定を行う。
実物と偽物との間における特徴の識別可能性の限界をさらに押し上げるために、効率的な文脈対応コントラスト符号化を導入する。
論文 参考訳(メタデータ) (2025-06-10T06:40:43Z) - $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - Exploring Pathological Speech Quality Assessment with ASR-Powered Wav2Vec2 in Data-Scarce Context [7.567181073057191]
本稿では,データ不足にもかかわらずセグメントではなく,音声レベルで学習する手法を提案する。
その結果, ASR に基づく Wav2Vec2 モデルが最高の結果をもたらし, ASR と音声品質評価との間に強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2024-03-29T13:59:34Z) - Skeleton-Based Human Action Recognition with Noisy Labels [43.58994208412764]
ラベルノイズはモデルのトレーニングに悪影響を及ぼし、認識品質が低下する。
NoiseEraSARは、グローバルなサンプル選択、コティーチング、クロスモーダル・ミックス・オブ・エキスパート戦略を統合している。
提案手法は,確立されたベンチマークの性能向上を実証し,新しい最先端標準を設定した。
論文 参考訳(メタデータ) (2024-03-15T02:42:28Z) - End-to-End Evaluation for Low-Latency Simultaneous Speech Translation [55.525125193856084]
本稿では,低遅延音声翻訳の様々な側面を現実的な条件下で実行し,評価するための第1の枠組みを提案する。
これには、オーディオのセグメンテーションと、異なるコンポーネントの実行時間が含まれる。
また、このフレームワークを用いて低遅延音声翻訳の異なるアプローチを比較する。
論文 参考訳(メタデータ) (2023-08-07T09:06:20Z) - MetaAudio: A Few-Shot Audio Classification Benchmark [2.294014185517203]
この研究は、画像ベースのベンチマークへの依存を軽減することを目的として、初めて包括的で公開され、完全に再現可能なオーディオベースの代替手段を提供する。
7つの音声データセットにおいて,様々な手法の複数ショットの分類性能を比較した。
実験では,MAMLやMeta-Curvatureのような勾配に基づくメタ学習法が,測定法とベースライン法の両方で一貫して優れていた。
論文 参考訳(メタデータ) (2022-04-05T11:33:44Z) - Region Comparison Network for Interpretable Few-shot Image
Classification [97.97902360117368]
新しいクラスのモデルをトレーニングするために、ラベル付きサンプルの限られた数だけを効果的に活用するための画像分類が提案されている。
本研究では,領域比較ネットワーク (RCN) と呼ばれる距離学習に基づく手法を提案する。
また,タスクのレベルからカテゴリへの解釈可能性の一般化も提案する。
論文 参考訳(メタデータ) (2020-09-08T07:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。