論文の概要: Unified Learnable 2D Convolutional Feature Extraction for ASR
- arxiv url: http://arxiv.org/abs/2509.10031v1
- Date: Fri, 12 Sep 2025 07:52:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.008273
- Title: Unified Learnable 2D Convolutional Feature Extraction for ASR
- Title(参考訳): ASRのための統一学習可能な2次元畳み込み特徴抽出
- Authors: Peter Vieting, Benedikt Hilmes, Ralf Schlüter, Hermann Ney,
- Abstract要約: 既存の技術の影響を減らし、汎用的なフロントエンドを実現する方法を示す。
結果として生じる2次元畳み込みフロントエンドはパラメータ効率が高く、限られた計算資源を持つシナリオに適している。
- 参考スコア(独自算出の注目度): 32.004189826728386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural front-ends represent a promising approach to feature extraction for automatic speech recognition (ASR) systems as they enable to learn specifically tailored features for different tasks. Yet, many of the existing techniques remain heavily influenced by classical methods. While this inductive bias may ease the system design, our work aims to develop a more generic front-end for feature extraction. Furthermore, we seek to unify the front-end architecture contrasting with existing approaches that apply a composition of several layer topologies originating from different sources. The experiments systematically show how to reduce the influence of existing techniques to achieve a generic front-end. The resulting 2D convolutional front-end is parameter-efficient and suitable for a scenario with limited computational resources unlike large models pre-trained on unlabeled audio. The results demonstrate that this generic unified approach is not only feasible but also matches the performance of existing supervised learnable feature extractors.
- Abstract(参考訳): ニューラルフロントエンドは、異なるタスクのために特別に調整された特徴を学習できるように、自動音声認識(ASR)システムのための特徴抽出のための有望なアプローチである。
しかし、既存の技法の多くは古典的手法の影響を強く受け続けている。
この帰納バイアスはシステム設計を楽にするかもしれないが、我々の研究は機能抽出のためのより汎用的なフロントエンドを開発することを目的としている。
さらに、異なるソースから派生した複数の層トポロジの合成を適用する既存のアプローチとは対照的に、フロントエンドアーキテクチャを統一することを模索する。
実験は、既存の技術の影響を減らし、汎用的なフロントエンドを実現する方法を示す。
結果として生じる2D畳み込みフロントエンドはパラメータ効率が高く、ラベルなしオーディオで事前訓練された大きなモデルとは異なり、限られた計算資源を持つシナリオに適している。
その結果、この総合的な統一的アプローチは、実現可能であるだけでなく、既存の教師付き学習可能特徴抽出器の性能と一致していることが示された。
関連論文リスト
- Regularizing Learnable Feature Extraction for Automatic Speech Recognition [46.34929961556797]
ニューラルフロントエンドは、音声認識のための従来の固定された特徴抽出パイプラインに代わる魅力的な代替手段である。
本研究では,学習可能な特徴抽出フロントエンドを用いたASRモデルの正規化手法について検討する。
論文 参考訳(メタデータ) (2025-06-11T14:46:14Z) - Enhancing Fine-Grained Visual Recognition in the Low-Data Regime Through Feature Magnitude Regularization [23.78498670529746]
抽出した特徴量の均等分布を保証するために正規化手法を導入する。
その明らかな単純さにもかかわらず、我々の手法は様々な細粒度視覚認識データセットに対して顕著な性能向上を示した。
論文 参考訳(メタデータ) (2024-09-03T07:32:46Z) - Beyond Prototypes: Semantic Anchor Regularization for Better
Representation Learning [82.29761875805369]
表現学習の最終的な目標の1つは、クラス内のコンパクトさとクラス間の十分な分離性を達成することである。
本稿では,機能セントロイドとして機能する事前定義されたクラスアンカーを用いて,特徴学習を一方向ガイドする新しい視点を提案する。
提案したSemantic Anchor Regularization (SAR) は,既存モデルのプラグアンドプレイ方式で使用することができる。
論文 参考訳(メタデータ) (2023-12-19T05:52:38Z) - Dynamic Perceiver for Efficient Visual Recognition [87.08210214417309]
特徴抽出手順と早期分類タスクを分離する動的知覚器(Dyn-Perceiver)を提案する。
特徴ブランチは画像の特徴を抽出し、分類ブランチは分類タスクに割り当てられた遅延コードを処理する。
早期出口は分類枝に限られており、低レベルの特徴において線形分離性は不要である。
論文 参考訳(メタデータ) (2023-06-20T03:00:22Z) - Style Interleaved Learning for Generalizable Person Re-identification [69.03539634477637]
DG ReIDトレーニングのための新しいスタイルインターリーブラーニング(IL)フレームワークを提案する。
従来の学習戦略とは異なり、ILには2つの前方伝播と1つの後方伝播が組み込まれている。
我々のモデルはDG ReIDの大規模ベンチマークにおいて最先端の手法を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2022-07-07T07:41:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。