論文の概要: Lightweight and Generalizable Acoustic Scene Representations via Contrastive Fine-Tuning and Distillation
- arxiv url: http://arxiv.org/abs/2510.03728v1
- Date: Sat, 04 Oct 2025 08:20:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.219072
- Title: Lightweight and Generalizable Acoustic Scene Representations via Contrastive Fine-Tuning and Distillation
- Title(参考訳): コントラスト微調整・蒸留による軽量で一般化可能な音響シーン表現
- Authors: Kuang Yuan, Yang Gao, Xilin Li, Xinhao Mei, Syavosh Zadissa, Tarun Pruthi, Saeed Bagheri Sereshki,
- Abstract要約: 埋め込み空間を構造化することにより、一般化可能な音響シーン表現を学習するContrastASCを提案する。
提案手法は,事前学習モデルの教師付きコントラスト微調整とコントラスト表現蒸留を組み合わせることで,この構造化された知識をコンパクトな学生モデルに伝達する。
- 参考スコア(独自算出の注目度): 9.792155109328894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Acoustic scene classification (ASC) models on edge devices typically operate under fixed class assumptions, lacking the transferability needed for real-world applications that require adaptation to new or refined acoustic categories. We propose ContrastASC, which learns generalizable acoustic scene representations by structuring the embedding space to preserve semantic relationships between scenes, enabling adaptation to unseen categories without retraining. Our approach combines supervised contrastive fine-tuning of pre-trained models with contrastive representation distillation to transfer this structured knowledge to compact student models. Our evaluation shows that ContrastASC demonstrates improved few-shot adaptation to unseen categories while maintaining strong closed-set performance.
- Abstract(参考訳): エッジデバイス上の音響シーン分類(ASC)モデルは、一般に固定クラスの仮定の下で動作し、新しいまたは洗練された音響カテゴリへの適応を必要とする現実のアプリケーションに必要な転送性に欠ける。
本研究では,シーン間のセマンティックな関係を維持するために埋め込み空間を構築することで,一般化可能な音響シーン表現を学習するContrastASCを提案する。
提案手法は,事前学習モデルの教師付きコントラスト微調整とコントラスト表現蒸留を組み合わせることで,この構造化された知識をコンパクトな学生モデルに伝達する。
評価の結果,コントラストASCは,強いクローズドセット性能を維持しつつ,未知のカテゴリに適応できることが示されている。
関連論文リスト
- AURORA: Augmented Understanding via Structured Reasoning and Reinforcement Learning for Reference Audio-Visual Segmentation [113.75682363364004]
AURORAは、参照音声視覚セグメント化における真の推論と言語理解を強化するために設計されたフレームワークである。
AURORAはRef-AVSベンチマークの最先端性能を達成し、非参照セグメンテーションに効果的に一般化する。
論文 参考訳(メタデータ) (2025-08-04T07:47:38Z) - Training-Free Class Purification for Open-Vocabulary Semantic Segmentation [72.87707878910896]
FreeCPは、セマンティックセグメンテーションのためのトレーニング不要のクラス浄化フレームワークである。
我々は,FreeCPの有効性を検証するため,8つのベンチマークで実験を行った。
その結果、プラグイン・アンド・プレイモジュールであるFreeCPは、他のOVSSメソッドと組み合わせることでセグメンテーション性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-08-01T11:55:12Z) - Towards Fine-Grained Adaptation of CLIP via a Self-Trained Alignment Score [11.74414842618874]
適応中の微粒な相互モーダル相互作用をモデル化すると、より正確でクラス別な擬似ラベルが得られることを示す。
局所化画像特徴と記述言語埋め込みとを動的に整合させる革新的なアプローチであるFAIR(ファインフルアライメント・アンド・インタラクション・リファインメント)を導入する。
当社のアプローチであるFAIRは、きめ細かな教師なし適応において大幅なパフォーマンス向上を実現し、2.78%という顕著な全体的な向上を実現しています。
論文 参考訳(メタデータ) (2025-07-13T12:38:38Z) - Sculpting [CLS] Features for Pre-Trained Model-Based Class-Incremental Learning [3.73232466691291]
クラス増分学習は、古いクラスを忘れることなく、新しいクラスの知識を継続的に獲得するモデルを必要とする。
事前学習されたモデルは、クラス増分学習において強い性能を示してきたが、新しい概念を学ぶ際に破滅的な忘れをしがちである。
本稿では,新しいパラメータ効率の高い微調整モジュール「Learn and Calibrate」 (LuCA) を導入する。
各学習セッションで、最後のトークンの上にスパースLuCAモジュールをデプロイし、それを'Token-level Sparse and Adaptation'(TO)と呼ぶ。
論文 参考訳(メタデータ) (2025-02-20T17:37:08Z) - Sparse autoencoders reveal selective remapping of visual concepts during adaptation [54.82630842681845]
特定の目的のために基礎モデルを適用することは、機械学習システムを構築するための標準的なアプローチとなっている。
PatchSAEと呼ばれるCLIPビジョントランスのための新しいスパースオートエンコーダ(SAE)を開発し、解釈可能な概念を抽出する。
論文 参考訳(メタデータ) (2024-12-06T18:59:51Z) - AC-Norm: Effective Tuning for Medical Image Analysis via Affine
Collaborative Normalization [11.224435413938375]
Affine Collaborative Normalization (AC-Norm) が提案されている。
AC-Normは、クロスドメインチャネルワイズ相関に基づいてターゲットモデルのチャネルを動的に再分類する。
我々は,AC-Normがバニラファインタニングを最大4%改善したことを実証した。
論文 参考訳(メタデータ) (2023-07-28T03:27:25Z) - Unleashing the Power of Contrastive Self-Supervised Visual Models via
Contrast-Regularized Fine-Tuning [94.35586521144117]
コントラスト学習を微調整に適用することでさらにメリットが得られるか検討する。
本研究では,コントラスト正規化調律(core-tuning)を提案する。
論文 参考訳(メタデータ) (2021-02-12T16:31:24Z) - Relational Teacher Student Learning with Neural Label Embedding for
Device Adaptation in Acoustic Scene Classification [49.0621360050418]
音響シーン分類におけるデバイスミスマッチ問題に対処するドメイン適応フレームワークを提案する。
音響シーンのクラス間の構造的関係を考慮し、本提案手法は本質的にデバイスに依存しない関係を捉える。
トレーニング段階では、転写可能な知識はソースドメインからNLEに凝縮される。
適応段階では、ペアのソースターゲットデータを使用しずに適応対象モデルを学習するために、新しいRTSL戦略を採用する。
論文 参考訳(メタデータ) (2020-07-31T23:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。