論文の概要: Adaptive Knowledge Distillation using a Device-Aware Teacher for Low-Complexity Acoustic Scene Classification
- arxiv url: http://arxiv.org/abs/2509.09262v1
- Date: Thu, 11 Sep 2025 08:48:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.300042
- Title: Adaptive Knowledge Distillation using a Device-Aware Teacher for Low-Complexity Acoustic Scene Classification
- Title(参考訳): 低複雑さ音響シーン分類のためのデバイス対応教師を用いた適応的知識蒸留
- Authors: Seung Gyu Jeong, Seong Eun Kim,
- Abstract要約: 本報告では,DCASE 2025 チャレンジの課題1として,低複雑さデバイス・ロバスト音響シーンの分類について述べる。
我々の研究は、厳密な複雑さの制約と、目に見えないデバイスと見えないデバイスの両方に対する堅牢な一般化という2つの課題に取り組みます。
提案手法は, 開発において57.93%の精度を達成し, 公式ベースラインよりも大幅に向上した。
- 参考スコア(独自算出の注目度): 5.254702845143088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this technical report, we describe our submission for Task 1, Low-Complexity Device-Robust Acoustic Scene Classification, of the DCASE 2025 Challenge. Our work tackles the dual challenges of strict complexity constraints and robust generalization to both seen and unseen devices, while also leveraging the new rule allowing the use of device labels at test time. Our proposed system is based on a knowledge distillation framework where an efficient CP-MobileNet student learns from a compact, specialized two-teacher ensemble. This ensemble combines a baseline PaSST teacher, trained with standard cross-entropy, and a 'generalization expert' teacher. This expert is trained using our novel Device-Aware Feature Alignment (DAFA) loss, adapted from prior work, which explicitly structures the feature space for device robustness. To capitalize on the availability of test-time device labels, the distilled student model then undergoes a final device-specific fine-tuning stage. Our proposed system achieves a final accuracy of 57.93\% on the development set, demonstrating a significant improvement over the official baseline, particularly on unseen devices.
- Abstract(参考訳): 本技術報告では,DCASE 2025チャレンジの課題1,低複雑デバイス・ロバスト音響シーン分類の提出について述べる。
我々の研究は、厳密な複雑さの制約と、目に見えないデバイスと見えないデバイスの両方に対する堅牢な一般化という2つの課題に取り組むと同時に、テスト時にデバイスラベルを使用できる新しいルールを活用する。
提案システムは,CP-MobileNet の学生がコンパクトな2教師アンサンブルから学習する知識蒸留の枠組みに基づいている。
このアンサンブルは、標準的なクロスエントロピーで訓練されたベースラインのPaSST教師と、"一般化の専門家"教師を組み合わせたものである。
この専門家は、我々の新しいDAFA(Device-Aware Feature Alignment)損失を使用してトレーニングされ、以前の作業から適応し、デバイスの堅牢性のために機能空間を明示的に構成する。
試験時間デバイスラベルの利用可能性を活かすため、蒸留された学生モデルは最終装置固有の微調整段階を経る。
提案システムでは,開発セットにおいて57.93\%の精度を達成し,特に目に見えないデバイスにおいて,公式のベースラインよりも大幅に改善されていることを示す。
関連論文リスト
- Dual Knowledge Distillation for Efficient Sound Event Detection [20.236008919003083]
音響信号中の特定の音とその時間的位置を認識するには,音事象検出(SED)が不可欠である。
本稿では,効率的なSEDシステムの開発を目的とした,二重知識蒸留と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T07:30:32Z) - Cross Architecture Distillation for Face Recognition [49.55061794917994]
本研究では,教師にプロンプトを組み込むことで,蒸留専門知識の管理を可能にする適応型プロンプト教師ネットワーク(APT)を開発した。
一般的な顔のベンチマークと2つの大規模な検証セットによる実験は,本手法の優位性を実証している。
論文 参考訳(メタデータ) (2023-06-26T12:54:28Z) - Low-complexity deep learning frameworks for acoustic scene
classification using teacher-student scheme and multiple spectrograms [59.86658316440461]
提案システムは,教師のネットワークを訓練する(Phase I)と,教師の知識を蒸留して学生のネットワークを訓練する(Phase II)の2つの段階から構成される。
DCASE 2023 Task 1 Developmentデータセットで実施した実験は,低複雑さの要求を満たすとともに,57.4%の最高の分類精度を達成した。
論文 参考訳(メタデータ) (2023-05-16T14:21:45Z) - Wider or Deeper Neural Network Architecture for Acoustic Scene
Classification with Mismatched Recording Devices [59.86658316440461]
音響シーン分類(ASC)のためのロバストで低複雑性なシステムを提案する。
本稿では,まず,新しい入出力型ネットワークアーキテクチャを設計し,不一致な記録装置問題に対処する,ASCベースラインシステムを構築する。
さらなる性能向上を図りながら、低複雑性モデルを満たすために、多重スペクトルのアンサンブルとチャネル縮小の2つの手法を適用した。
論文 参考訳(メタデータ) (2022-03-23T10:27:41Z) - SEA: Bridging the Gap Between One- and Two-stage Detector Distillation
via SEmantic-aware Alignment [76.80165589520385]
細粒度情報を抽象化する性質から,SEA (SEmantic-Aware Alignment) 蒸留法を命名した。
1段検出器と2段検出器の両方において、挑戦的な物体検出タスクにおいて、最先端の新たな結果が得られる。
論文 参考訳(メタデータ) (2022-03-02T04:24:05Z) - Weakly Supervised Semantic Segmentation via Alternative Self-Dual
Teaching [82.71578668091914]
本稿では,分類とマスク・リファインメント・コンポーネントを統合された深層モデルに組み込む,コンパクトな学習フレームワークを確立する。
本稿では,高品質な知識相互作用を促進するために,新たな自己双対学習(ASDT)機構を提案する。
論文 参考訳(メタデータ) (2021-12-17T11:56:56Z) - Relational Teacher Student Learning with Neural Label Embedding for
Device Adaptation in Acoustic Scene Classification [49.0621360050418]
音響シーン分類におけるデバイスミスマッチ問題に対処するドメイン適応フレームワークを提案する。
音響シーンのクラス間の構造的関係を考慮し、本提案手法は本質的にデバイスに依存しない関係を捉える。
トレーニング段階では、転写可能な知識はソースドメインからNLEに凝縮される。
適応段階では、ペアのソースターゲットデータを使用しずに適応対象モデルを学習するために、新しいRTSL戦略を採用する。
論文 参考訳(メタデータ) (2020-07-31T23:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。