論文の概要: Unified Learnable 2D Convolutional Feature Extraction for ASR
- arxiv url: http://arxiv.org/abs/2509.10031v1
- Date: Fri, 12 Sep 2025 07:52:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.008273
- Title: Unified Learnable 2D Convolutional Feature Extraction for ASR
- Title(参考訳): ASRのための統一学習可能な2次元畳み込み特徴抽出
- Authors: Peter Vieting, Benedikt Hilmes, Ralf Schlüter, Hermann Ney,
- Abstract要約: 既存の技術の影響を減らし、汎用的なフロントエンドを実現する方法を示す。
結果として生じる2次元畳み込みフロントエンドはパラメータ効率が高く、限られた計算資源を持つシナリオに適している。
- 参考スコア(独自算出の注目度): 32.004189826728386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural front-ends represent a promising approach to feature extraction for automatic speech recognition (ASR) systems as they enable to learn specifically tailored features for different tasks. Yet, many of the existing techniques remain heavily influenced by classical methods. While this inductive bias may ease the system design, our work aims to develop a more generic front-end for feature extraction. Furthermore, we seek to unify the front-end architecture contrasting with existing approaches that apply a composition of several layer topologies originating from different sources. The experiments systematically show how to reduce the influence of existing techniques to achieve a generic front-end. The resulting 2D convolutional front-end is parameter-efficient and suitable for a scenario with limited computational resources unlike large models pre-trained on unlabeled audio. The results demonstrate that this generic unified approach is not only feasible but also matches the performance of existing supervised learnable feature extractors.
- Abstract(参考訳): ニューラルフロントエンドは、異なるタスクのために特別に調整された特徴を学習できるように、自動音声認識(ASR)システムのための特徴抽出のための有望なアプローチである。
しかし、既存の技法の多くは古典的手法の影響を強く受け続けている。
この帰納バイアスはシステム設計を楽にするかもしれないが、我々の研究は機能抽出のためのより汎用的なフロントエンドを開発することを目的としている。
さらに、異なるソースから派生した複数の層トポロジの合成を適用する既存のアプローチとは対照的に、フロントエンドアーキテクチャを統一することを模索する。
実験は、既存の技術の影響を減らし、汎用的なフロントエンドを実現する方法を示す。
結果として生じる2D畳み込みフロントエンドはパラメータ効率が高く、ラベルなしオーディオで事前訓練された大きなモデルとは異なり、限られた計算資源を持つシナリオに適している。
その結果、この総合的な統一的アプローチは、実現可能であるだけでなく、既存の教師付き学習可能特徴抽出器の性能と一致していることが示された。
関連論文リスト
- Self-Ensemble Post Learning for Noisy Domain Generalization [18.4218677759831]
本稿では,ノイズに対処する際の既存手法のやり直し方法について検討する。
モデル内の潜在機能には、特定の識別能力があることが分かりました。
本稿では,活用可能な特徴を多様化するセルフアンサンブル・ポストラーニング手法を提案する。
論文 参考訳(メタデータ) (2025-12-11T17:09:35Z) - Regularizing Learnable Feature Extraction for Automatic Speech Recognition [46.34929961556797]
ニューラルフロントエンドは、音声認識のための従来の固定された特徴抽出パイプラインに代わる魅力的な代替手段である。
本研究では,学習可能な特徴抽出フロントエンドを用いたASRモデルの正規化手法について検討する。
論文 参考訳(メタデータ) (2025-06-11T14:46:14Z) - Enhancing Fine-Grained Visual Recognition in the Low-Data Regime Through Feature Magnitude Regularization [23.78498670529746]
抽出した特徴量の均等分布を保証するために正規化手法を導入する。
その明らかな単純さにもかかわらず、我々の手法は様々な細粒度視覚認識データセットに対して顕著な性能向上を示した。
論文 参考訳(メタデータ) (2024-09-03T07:32:46Z) - A Noise and Edge extraction-based dual-branch method for Shallowfake and Deepfake Localization [15.647035299476894]
従来のCNN機能と手動で設計した特徴雑音を統合したデュアルブランチモデルを開発した。
このモデルは比較において優れており、既存の最先端モデル(SoTA)よりも容易に優れている。
論文 参考訳(メタデータ) (2024-09-02T02:18:34Z) - Beyond Prototypes: Semantic Anchor Regularization for Better
Representation Learning [82.29761875805369]
表現学習の最終的な目標の1つは、クラス内のコンパクトさとクラス間の十分な分離性を達成することである。
本稿では,機能セントロイドとして機能する事前定義されたクラスアンカーを用いて,特徴学習を一方向ガイドする新しい視点を提案する。
提案したSemantic Anchor Regularization (SAR) は,既存モデルのプラグアンドプレイ方式で使用することができる。
論文 参考訳(メタデータ) (2023-12-19T05:52:38Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Dynamic Perceiver for Efficient Visual Recognition [87.08210214417309]
特徴抽出手順と早期分類タスクを分離する動的知覚器(Dyn-Perceiver)を提案する。
特徴ブランチは画像の特徴を抽出し、分類ブランチは分類タスクに割り当てられた遅延コードを処理する。
早期出口は分類枝に限られており、低レベルの特徴において線形分離性は不要である。
論文 参考訳(メタデータ) (2023-06-20T03:00:22Z) - Learning Common Rationale to Improve Self-Supervised Representation for
Fine-Grained Visual Recognition Problems [61.11799513362704]
我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。
SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
論文 参考訳(メタデータ) (2023-03-03T02:07:40Z) - Style Interleaved Learning for Generalizable Person Re-identification [69.03539634477637]
DG ReIDトレーニングのための新しいスタイルインターリーブラーニング(IL)フレームワークを提案する。
従来の学習戦略とは異なり、ILには2つの前方伝播と1つの後方伝播が組み込まれている。
我々のモデルはDG ReIDの大規模ベンチマークにおいて最先端の手法を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2022-07-07T07:41:32Z) - Class-Specific Semantic Reconstruction for Open Set Recognition [101.24781422480406]
オープンセット認識により、ディープニューラルネットワーク(DNN)は未知のクラスのサンプルを識別できる。
本稿では,自動エンコーダ(AE)とプロトタイプ学習を統合したCSSR(Class-Specific Semantic Reconstruction)を提案する。
複数のデータセットで実験を行った結果,提案手法は閉集合認識と開集合認識の両方において優れた性能を発揮することがわかった。
論文 参考訳(メタデータ) (2022-07-05T16:25:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。