論文の概要: An Entropy-Guided Curriculum Learning Strategy for Data-Efficient Acoustic Scene Classification under Domain Shift
- arxiv url: http://arxiv.org/abs/2509.11168v1
- Date: Sun, 14 Sep 2025 09:01:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.95811
- Title: An Entropy-Guided Curriculum Learning Strategy for Data-Efficient Acoustic Scene Classification under Domain Shift
- Title(参考訳): ドメインシフトに基づくデータ効率の良い音響シーン分類のためのエントロピーガイド型カリキュラム学習戦略
- Authors: Peihong Zhang, Yuxuan Liu, Zhixin Li, Rui Sang, Yiqiang Cai, Yizhou Tan, Shengchen Li,
- Abstract要約: 音響シーン分類(ASC)は、録音装置全体にわたる一般化の課題に直面している。
DCASE 2024 Challenge Task 1は、いくつかのデバイスで記録された小さなラベル付きサブセットからモデルを学ぶことを要求することで、この問題を強調している。
データ効率のよいASCにおける領域シフト問題に対処するエントロピー誘導型カリキュラム学習戦略を提案する。
- 参考スコア(独自算出の注目度): 12.42019711058722
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Acoustic Scene Classification (ASC) faces challenges in generalizing across recording devices, particularly when labeled data is limited. The DCASE 2024 Challenge Task 1 highlights this issue by requiring models to learn from small labeled subsets recorded on a few devices. These models need to then generalize to recordings from previously unseen devices under strict complexity constraints. While techniques such as data augmentation and the use of pre-trained models are well-established for improving model generalization, optimizing the training strategy represents a complementary yet less-explored path that introduces no additional architectural complexity or inference overhead. Among various training strategies, curriculum learning offers a promising paradigm by structuring the learning process from easier to harder examples. In this work, we propose an entropy-guided curriculum learning strategy to address the domain shift problem in data-efficient ASC. Specifically, we quantify the uncertainty of device domain predictions for each training sample by computing the Shannon entropy of the device posterior probabilities estimated by an auxiliary domain classifier. Using entropy as a proxy for domain invariance, the curriculum begins with high-entropy samples and gradually incorporates low-entropy, domain-specific ones to facilitate the learning of generalizable representations. Experimental results on multiple DCASE 2024 ASC baselines demonstrate that our strategy effectively mitigates domain shift, particularly under limited labeled data conditions. Our strategy is architecture-agnostic and introduces no additional inference cost, making it easily integrable into existing ASC baselines and offering a practical solution to domain shift.
- Abstract(参考訳): 音響シーン分類(ASC)は、特にラベル付きデータが制限された場合に、記録装置をまたいで一般化する際の課題に直面している。
DCASE 2024 Challenge Task 1は、いくつかのデバイスで記録された小さなラベル付きサブセットからモデルを学ぶことを要求することで、この問題を強調している。
これらのモデルは、厳密な複雑さの制約の下で、これまで見えないデバイスからの録音に一般化する必要がある。
データ拡張や事前訓練モデルの使用といったテクニックは、モデル一般化を改善するために十分に確立されているが、トレーニング戦略の最適化は、追加のアーキテクチャ上の複雑さや推論オーバーヘッドを伴わない、補完的だが探索の少ないパスを表している。
様々なトレーニング戦略の中で、カリキュラム学習は、学習プロセスをより簡単な例からより難しい例まで構造化することで、有望なパラダイムを提供する。
本研究では,データ効率のよいASCにおける領域シフト問題に対処するエントロピー誘導型カリキュラム学習戦略を提案する。
具体的には、補助領域分類器によって推定されるデバイス後部確率のシャノンエントロピーを計算することにより、各トレーニングサンプルのデバイス領域予測の不確かさを定量化する。
エントロピーを領域不変性の代用として使うと、カリキュラムは高エントロピーのサンプルから始まり、徐々に低エントロピーの領域固有のものを取り込んで一般化可能な表現の学習を容易にする。
複数のDCASE 2024 ASCベースラインに対する実験結果から,特にラベル付きデータ条件下でのドメインシフトを効果的に軽減できることが示された。
私たちの戦略はアーキテクチャに依存しず、追加の推論コストを導入せず、既存のASCベースラインに容易に統合でき、ドメインシフトに対する実用的なソリューションを提供します。
関連論文リスト
- Feature-Space Planes Searcher: A Universal Domain Adaptation Framework for Interpretability and Computational Efficiency [7.889121135601528]
現在の教師なし領域適応法は微調整特徴抽出器に依存している。
領域適応フレームワークとしてFPS(Feature-space Planes Searcher)を提案する。
FPSは最先端の手法と比較して,競争力や性能に優れることを示す。
論文 参考訳(メタデータ) (2025-08-26T05:39:21Z) - Spatial-Temporal-Spectral Unified Modeling for Remote Sensing Dense Prediction [20.1863553357121]
リモートセンシングのための現在のディープラーニングアーキテクチャは、基本的に堅固である。
本稿では,統合モデリングのための空間時間スペクトル統一ネットワーク(STSUN)について紹介する。
STSUNは任意の空間サイズ、時間長、スペクトル帯域で入力および出力データに適応することができる。
様々な密集した予測タスクと多様な意味クラス予測を統一する。
論文 参考訳(メタデータ) (2025-05-18T07:39:17Z) - A Large-scale Benchmark on Geological Fault Delineation Models: Domain Shift, Training Dynamics, Generalizability, Evaluation and Inferential Behavior [11.859145373647474]
本研究は,地震解析における領域シフト戦略のガイドラインを提供するために設計された,最初の大規模ベンチマーク研究である。
私たちのベンチマークでは、モデルアーキテクチャ、データセット、トレーニング戦略を3つのデータセットで200以上組み合わせています。
我々の分析は、ソースとターゲットのデータセットが結合していない場合、一般的な微調整のプラクティスが破滅的な忘れを招きかねないことを示している。
論文 参考訳(メタデータ) (2025-05-13T13:56:43Z) - CSE-SFP: Enabling Unsupervised Sentence Representation Learning via a Single Forward Pass [3.0566617373924325]
プレトレーニング言語モデル(PLM)の最近の進歩は、この分野において顕著な進歩をもたらした。
CSE-SFPは,生成モデルの構造的特徴を利用する革新的な手法である。
CSE-SFPは高品質な埋め込みを実現するだけでなく、トレーニング時間とメモリ消費を著しく削減する。
論文 参考訳(メタデータ) (2025-05-01T08:27:14Z) - Adapting In-Domain Few-Shot Segmentation to New Domains without Retraining [53.963279865355105]
クロスドメイン小ショットセグメンテーション(CD-FSS)は、新しいドメインで新しいクラスのオブジェクトをセグメンテーションすることを目的としている。
多くのCD-FSSメソッドは、様々なドメイン一般化手法を用いて、ドメイン内FSSモデルを再設計し、再訓練する。
そこで,本研究では,FSSモデルを対象ドメインに適応させ,少数ショットラベル付きサポートサンプルからドメイン特性を学習する手法を提案する。
論文 参考訳(メタデータ) (2025-04-30T08:16:33Z) - Towards Generalizable Trajectory Prediction Using Dual-Level Representation Learning And Adaptive Prompting [107.4034346788744]
既存の車両軌道予測モデルは、一般化可能性、予測の不確実性、複雑な相互作用を扱う。
本研究では,(1)自己拡張(SD)とマスドレコンストラクション(MR)による二重レベル表現学習,グローバルコンテキストと細部の詳細の収集,(2)レジスタベースのクエリと事前学習の強化,クラスタリングと抑圧の必要性の排除,(3)微調整中の適応型プロンプトチューニング,メインアーキテクチャの凍結,および少数のプロンプトの最適化といった,新たなトラジェクタ予測フレームワークであるPerceiverを提案する。
論文 参考訳(メタデータ) (2025-01-08T20:11:09Z) - DiffClass: Diffusion-Based Class Incremental Learning [30.514281721324853]
クラスインクリメンタルラーニング(CIL)は破滅的な忘れが原因で困難である。
最近の例のないCIL手法は、過去のタスクデータを合成することによって破滅的な忘れを軽減しようとする。
そこで本研究では,これらの問題を克服するために,新しい非定型CIL法を提案する。
論文 参考訳(メタデータ) (2024-03-08T03:34:18Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - One-Shot Domain Adaptive and Generalizable Semantic Segmentation with
Class-Aware Cross-Domain Transformers [96.51828911883456]
セマンティックセグメンテーションのための教師なしのsim-to-realドメイン適応(UDA)は、シミュレーションデータに基づいて訓練されたモデルの実世界のテスト性能を改善することを目的としている。
従来のUDAは、適応のためのトレーニング中に利用可能なラベルのない実世界のサンプルが豊富にあると仮定することが多い。
実世界のデータサンプルが1つしか利用できない,一発の教師なしシム・トゥ・リアル・ドメイン適応(OSUDA)と一般化問題について検討する。
論文 参考訳(メタデータ) (2022-12-14T15:54:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。