論文の概要: PACE: Pretrained Audio Continual Learning
- arxiv url: http://arxiv.org/abs/2602.03355v1
- Date: Tue, 03 Feb 2026 10:28:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.39053
- Title: PACE: Pretrained Audio Continual Learning
- Title(参考訳): PACE: 事前訓練されたオーディオ連続学習
- Authors: Chang Li, Kanglei Zhou, Liyuan Wang,
- Abstract要約: 事前学習モデル(PTM)を用いた音声連続学習(CL)のための最初の体系的ベンチマークを提案する。
さらに、スペクトルに基づく境界認識摂動を導入し、表現の重なりを緩和し、安定性を向上させる。
6つの多様なオーディオCLベンチマークの実験は、PACEが最先端のベースラインを大幅に上回っていることを示している。
- 参考スコア(独自算出の注目度): 27.605574463021693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio is a fundamental modality for analyzing speech, music, and environmental sounds. Although pretrained audio models have significantly advanced audio understanding, they remain fragile in real-world settings where data distributions shift over time. In this work, we present the first systematic benchmark for audio continual learning (CL) with pretrained models (PTMs), together with a comprehensive analysis of its unique challenges. Unlike in vision, where parameter-efficient fine-tuning (PEFT) has proven effective for CL, directly transferring such strategies to audio leads to poor performance. This stems from a fundamental property of audio backbones: they focus on low-level spectral details rather than structured semantics, causing severe upstream-downstream misalignment. Through extensive empirical study, we identify analytic classifiers with first-session adaptation (FSA) as a promising direction, but also reveal two major limitations: representation saturation in coarse-grained scenarios and representation drift in fine-grained scenarios. To address these challenges, we propose PACE, a novel method that enhances FSA via a regularized analytic classifier and enables multi-session adaptation through adaptive subspace-orthogonal PEFT for improved semantic alignment. In addition, we introduce spectrogram-based boundary-aware perturbations to mitigate representation overlap and improve stability. Experiments on six diverse audio CL benchmarks demonstrate that PACE substantially outperforms state-of-the-art baselines, marking an important step toward robust and scalable audio continual learning with PTMs.
- Abstract(参考訳): 音声は、音声、音楽、環境音を分析するための基本的なモダリティである。
事前訓練されたオーディオモデルは、かなり高度な音声理解を持つが、データ分散が時間とともに変化する現実世界では、脆弱なままである。
本研究では,事前学習モデル(PTM)を用いた音声連続学習(CL)のための最初の体系的ベンチマークと,そのユニークな課題を包括的に分析する。
パラメータ効率のよい微調整(PEFT)がCLに有効であることが証明されたビジョンとは異なり、このような戦略を直接オーディオに転送すると性能が低下する。
これは、構造化セマンティクスよりも低レベルのスペクトルの詳細に焦点をあて、上流から下流への過ちを引き起こすという、オーディオバックボーンの基本的な性質に起因している。
広範にわたる実証研究を通じて、第一段階適応(FSA)を有望な方向とする分析分類器を同定すると同時に、粗粒度シナリオにおける表現飽和と細粒度シナリオにおける表現ドリフトの2つの大きな制限を明らかにする。
これらの課題に対処するため、我々は、正規化分析分類器を介してFSAを強化し、適応的部分空間-直交PEFTによるマルチセッション適応を実現し、セマンティックアライメントを改善する新しい手法であるPACEを提案する。
さらに、スペクトルに基づく境界認識摂動を導入し、表現の重なりを緩和し、安定性を向上させる。
6つの多様なオーディオCLベンチマークの実験は、PACEが最先端のベースラインを大幅に上回っており、PTMによる堅牢でスケーラブルなオーディオ連続学習への重要な一歩であることを示している。
関連論文リスト
- Representation-Regularized Convolutional Audio Transformer for Audio Understanding [53.092757178419355]
スクラッチからのブートストラップ表現は計算に高価で、しばしば収束するために広範囲のトレーニングを必要とします。
本稿では,これらの課題に対処するための統合フレームワークであるConvolutional Audio Transformer (CAT)を提案する。
論文 参考訳(メタデータ) (2026-01-29T12:16:19Z) - CORD: Bridging the Audio-Text Reasoning Gap via Weighted On-policy Cross-modal Distillation [32.72685791637924]
オンラインクロスモーダル自己蒸留を行う統合アライメントフレームワークであるCORDを提案する。
具体的には、音声条件の推論とテキスト条件の推論を統一モデル内で一致させる。
複数のベンチマークにまたがる実験結果から、CORDは音声条件推論を一貫して強化することが示された。
論文 参考訳(メタデータ) (2026-01-23T08:31:24Z) - Harmonizing the Arabic Audio Space with Data Scheduling [15.84874997729878]
本稿では、アラビア語中心のLLMのためのマルチタスク・インストラクション・チューニングに関する最初の体系的研究について述べる。
我々はQwen2.5-Omni (7B) を微調整し、Aligner-Based Diverse Smpling (ADS) とともにタスクプログレッシブカリキュラム (TPC) を提案する。
ADSは初期収束を加速するが、その固有の勾配のボラティリティは、長期の訓練で生成的復号を不安定にすることができる。
論文 参考訳(メタデータ) (2026-01-18T17:08:31Z) - SEE: Signal Embedding Energy for Quantifying Noise Interference in Large Audio Language Models [49.313324100819955]
信号埋め込みエネルギー (Signal Embedding Energy, SEE) は、LALM入力に対する雑音強度の影響を定量化する手法である。
SEEはLALM性能と強い相関を示し,0.98。
本稿では,LALMにおけるノイズ定量化のための新しい指標を提案し,実環境におけるロバスト性向上のためのガイダンスを提供する。
論文 参考訳(メタデータ) (2026-01-12T08:57:55Z) - High-Fidelity Speech Enhancement via Discrete Audio Tokens [35.61634772862795]
DAC-SE1は言語モデルに基づくSEフレームワークで、離散的な高解像度オーディオ表現を利用する。
実験の結果,DAC-SE1は客観的指標とMUSHRAによる人的評価の両方において,最先端の自己回帰SE法を超越していることがわかった。
論文 参考訳(メタデータ) (2025-10-02T16:38:05Z) - MATPAC++: Enhanced Masked Latent Prediction for Self-Supervised Audio Representation Learning [9.580895202050947]
自己教師型学習(SSL)の先駆的パラダイムとしてマスク付き潜伏予測が登場した
本研究は,MCL(Multiple Choice Learning)を統合し,予測のあいまいさを明示的にモデル化し,表現品質を向上させることを提案する。
論文 参考訳(メタデータ) (2025-08-18T08:10:07Z) - AURORA: Augmented Understanding via Structured Reasoning and Reinforcement Learning for Reference Audio-Visual Segmentation [113.75682363364004]
AURORAは、参照音声視覚セグメント化における真の推論と言語理解を強化するために設計されたフレームワークである。
AURORAはRef-AVSベンチマークの最先端性能を達成し、非参照セグメンテーションに効果的に一般化する。
論文 参考訳(メタデータ) (2025-08-04T07:47:38Z) - Implicit Counterfactual Learning for Audio-Visual Segmentation [50.69377287012591]
我々は,非バイアスの相互理解を実現するために,暗黙の対実的枠組み(ICF)を提案する。
意味論の欠如により、異種表現は誤った一致につながる可能性がある。
モダリティ共有空間を確立するために,ビデオ,セグメント,フレームレベルを含む多粒性暗黙テキスト(MIT)をブリッジとして導入する。
論文 参考訳(メタデータ) (2025-07-28T11:46:35Z) - Advancing Test-Time Adaptation in Wild Acoustic Test Settings [26.05732574338255]
音声信号は短期的な一貫性に従い、特別な適応戦略を必要とする。
本研究では,ASR微調整音響基礎モデルに適した新しい音響TTA法を提案する。
本手法は,様々な音環境下での既存のベースラインよりも優れる。
論文 参考訳(メタデータ) (2023-10-14T06:22:08Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Cross-domain Adaptation with Discrepancy Minimization for
Text-independent Forensic Speaker Verification [61.54074498090374]
本研究では,複数の音響環境下で収集したCRSS-Forensicsオーディオデータセットを紹介する。
我々は、VoxCelebデータを用いてCNNベースのネットワークを事前訓練し、次に、CRSS-Forensicsのクリーンな音声で高レベルのネットワーク層の一部を微調整するアプローチを示す。
論文 参考訳(メタデータ) (2020-09-05T02:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。