論文の概要: Regularizing Learnable Feature Extraction for Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2506.09804v1
- Date: Wed, 11 Jun 2025 14:46:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.062345
- Title: Regularizing Learnable Feature Extraction for Automatic Speech Recognition
- Title(参考訳): 音声認識のための正規化学習可能な特徴抽出
- Authors: Peter Vieting, Maximilian Kannen, Benedikt Hilmes, Ralf Schlüter, Hermann Ney,
- Abstract要約: ニューラルフロントエンドは、音声認識のための従来の固定された特徴抽出パイプラインに代わる魅力的な代替手段である。
本研究では,学習可能な特徴抽出フロントエンドを用いたASRモデルの正規化手法について検討する。
- 参考スコア(独自算出の注目度): 46.34929961556797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural front-ends are an appealing alternative to traditional, fixed feature extraction pipelines for automatic speech recognition (ASR) systems since they can be directly trained to fit the acoustic model. However, their performance often falls short compared to classical methods, which we show is largely due to their increased susceptibility to overfitting. This work therefore investigates regularization methods for training ASR models with learnable feature extraction front-ends. First, we examine audio perturbation methods and show that larger relative improvements can be obtained for learnable features. Additionally, we identify two limitations in the standard use of SpecAugment for these front-ends and propose masking in the short time Fourier transform (STFT)-domain as a simple but effective modification to address these challenges. Finally, integrating both regularization approaches effectively closes the performance gap between traditional and learnable features.
- Abstract(参考訳): ニューラルフロントエンドは、音響モデルに適合するように直接訓練できるため、自動音声認識(ASR)システムのための従来の固定された特徴抽出パイプラインに代わる魅力的な代替品である。
しかし、それらの性能は古典的な手法に比べて低下しがちであり、これは主に過度に適合する可能性の増大によるものである。
そこで本研究では,学習可能な特徴抽出フロントエンドを用いたASRモデルの正規化手法について検討する。
まず、音声摂動法について検討し、学習可能な特徴に対してより大きな相対的改善が得られることを示す。
さらに、これらのフロントエンドに対するSpecAugmentの標準使用における2つの制限を特定し、これらの課題に対処するための単純かつ効果的な修正として、短時間でFourier変換(STFT)ドメインを提案する。
最後に、正規化アプローチの統合は、従来の機能と学習可能な機能の間のパフォーマンスギャップを効果的に埋めます。
関連論文リスト
- Unified AI for Accurate Audio Anomaly Detection [0.0]
本稿では,高精度な音声異常検出のための統合AIフレームワークを提案する。
高度なノイズ低減、特徴抽出、機械学習モデリング技術を統合する。
このフレームワークはTORGOやLibriSpeechといったベンチマークデータセットで評価されている。
論文 参考訳(メタデータ) (2025-05-20T16:56:08Z) - Orthogonal Subspace Decomposition for Generalizable AI-Generated Image Detection [58.87142367781417]
航法的に訓練された検出器は、限定的で単調な偽のパターンに過度に適合する傾向にあり、特徴空間は高度に制約され、低ランクになる。
潜在的な治療法の1つは、ビジョンファウンデーションモデルに事前訓練された知識を取り入れて、機能領域を広げることである。
主要なコンポーネントを凍結し、残ったコンポーネントのみを適用することで、フェイクパターンを学習しながら、トレーニング済みの知識を保存します。
論文 参考訳(メタデータ) (2024-11-23T19:10:32Z) - Continual Learning in the Frequency Domain [22.415936450558334]
周波数領域における連続学習(CLFD)と呼ばれる新しいフレームワークを提案する。
特徴抽出器の入力特徴について、CLFDはウェーブレット変換を用いて元の入力画像を周波数領域にマッピングする。
クラウド環境とエッジ環境の両方で実施された実験により、CLFDは精度とトレーニング効率の両方において、最先端(SOTA)手法の性能を一貫して改善することが示された。
論文 参考訳(メタデータ) (2024-10-09T07:57:47Z) - Enhancing Fine-Grained Visual Recognition in the Low-Data Regime Through Feature Magnitude Regularization [23.78498670529746]
抽出した特徴量の均等分布を保証するために正規化手法を導入する。
その明らかな単純さにもかかわらず、我々の手法は様々な細粒度視覚認識データセットに対して顕著な性能向上を示した。
論文 参考訳(メタデータ) (2024-09-03T07:32:46Z) - Beyond Prototypes: Semantic Anchor Regularization for Better
Representation Learning [82.29761875805369]
表現学習の最終的な目標の1つは、クラス内のコンパクトさとクラス間の十分な分離性を達成することである。
本稿では,機能セントロイドとして機能する事前定義されたクラスアンカーを用いて,特徴学習を一方向ガイドする新しい視点を提案する。
提案したSemantic Anchor Regularization (SAR) は,既存モデルのプラグアンドプレイ方式で使用することができる。
論文 参考訳(メタデータ) (2023-12-19T05:52:38Z) - Spatio-temporal Gait Feature with Adaptive Distance Alignment [90.5842782685509]
我々は,ネットワーク構造の最適化と抽出した歩行特徴の洗練という2つの側面から,異なる被験者の歩行特徴の差を増大させようとしている。
提案手法は時空間特徴抽出(SFE)と適応距離アライメント(ADA)から構成される。
ADAは実生活における多数の未ラベルの歩行データをベンチマークとして使用し、抽出した時間的特徴を洗練し、クラス間類似度が低く、クラス内類似度が高いようにしている。
論文 参考訳(メタデータ) (2022-03-07T13:34:00Z) - Towards Intelligibility-Oriented Audio-Visual Speech Enhancement [8.19144665585397]
本稿では,STOI(Modified short-time objective intelligibility)メトリックをトレーニングコスト関数として用いた完全畳み込み型AVSEモデルを提案する。
提案するI-O AV SEフレームワークは,従来の距離に基づく損失関数を訓練したオーディオ専用(AO)およびAVモデルより優れている。
論文 参考訳(メタデータ) (2021-11-18T11:47:37Z) - Single-Layer Vision Transformers for More Accurate Early Exits with Less
Overhead [88.17413955380262]
視覚変換器アーキテクチャに基づく早期退避のための新しいアーキテクチャを提案する。
本手法は分類問題と回帰問題の両方に有効であることを示す。
また,音声視覚データ解析において,早期出口に音声と視覚のモダリティを統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-19T13:30:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。