論文の概要: Automatic Speech Recognition in the Modern Era: Architectures, Training, and Evaluation
- arxiv url: http://arxiv.org/abs/2510.12827v1
- Date: Sat, 11 Oct 2025 05:38:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.33702
- Title: Automatic Speech Recognition in the Modern Era: Architectures, Training, and Evaluation
- Title(参考訳): 現代における音声認識:建築・訓練・評価
- Authors: Md. Nayeem, Md Shamse Tabrej, Kabbojit Jit Deb, Shaonti Goswami, Md. Azizul Hakim,
- Abstract要約: 音声認識は、ディープラーニングの進歩によって、過去10年間に大きく変化してきた。
この調査は、従来のハイブリッドシステムから、現在支配的なエンドツーエンドのニューラルアーキテクチャへの進化をグラフ化して、ASRの現代を包括的に概観する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic Speech Recognition (ASR) has undergone a profound transformation over the past decade, driven by advances in deep learning. This survey provides a comprehensive overview of the modern era of ASR, charting its evolution from traditional hybrid systems, such as Gaussian Mixture Model-Hidden Markov Models (GMM-HMMs) and Deep Neural Network-HMMs (DNN-HMMs), to the now-dominant end-to-end neural architectures. We systematically review the foundational end-to-end paradigms: Connectionist Temporal Classification (CTC), attention-based encoder-decoder models, and the Recurrent Neural Network Transducer (RNN-T), which established the groundwork for fully integrated speech-to-text systems. We then detail the subsequent architectural shift towards Transformer and Conformer models, which leverage self-attention to capture long-range dependencies with high computational efficiency. A central theme of this survey is the parallel revolution in training paradigms. We examine the progression from fully supervised learning, augmented by techniques like SpecAugment, to the rise of self-supervised learning (SSL) with foundation models such as wav2vec 2.0, which drastically reduce the reliance on transcribed data. Furthermore, we analyze the impact of largescale, weakly supervised models like Whisper, which achieve unprecedented robustness through massive data diversity. The paper also covers essential ecosystem components, including key datasets and benchmarks (e.g., LibriSpeech, Switchboard, CHiME), standard evaluation metrics (e.g., Word Error Rate), and critical considerations for real-world deployment, such as streaming inference, on-device efficiency, and the ethical imperatives of fairness and robustness. We conclude by outlining open challenges and future research directions.
- Abstract(参考訳): 音声認識(ASR)は、ディープラーニングの進歩によって、過去10年間に大きく変化してきた。
このサーベイは、ASRの現代を包括的に概観し、ガウス混合モデル-ハイデンマルコフモデル(GMM-HMM)やディープニューラルネットワーク-HMM(DNN-HMM)といった従来のハイブリッドシステムから、現在支配的なエンドツーエンドのニューラルネットワークアーキテクチャへと進化を図示した。
我々は,接続型テンポラル分類(CTC),注意型エンコーダデコーダモデル,および完全に統合された音声-テキストシステムの基盤となるリカレントニューラルネットワークトランスデューサ(RNN-T)を体系的に検討した。
次に、トランスフォーマーモデルとコンフォーマーモデルへのアーキテクチャシフトについて詳述する。
この調査の中心的なテーマは、トレーニングパラダイムにおける並列革命である。
我々は、SpecAugmentのような技術によって強化された完全教師付き学習から、wav2vec 2.0のような基盤モデルによる自己教師付き学習(SSL)の台頭まで、転写データへの依存を大幅に減らす過程について検討する。
さらに、Whisperのような大規模で弱い教師付きモデルの影響を分析する。
この論文では、キーデータセットやベンチマーク(例えば、LibriSpeech、Switchboard、CHiME)、標準評価指標(例えば、Word Error Rate)、ストリーミング推論、オンデバイス効率、公正性と堅牢性の倫理的命令など、現実のデプロイメントに対する重要な考慮事項についても取り上げている。
オープンな課題と今後の研究方向性を概説して結論付けます。
関連論文リスト
- Foundations and Models in Modern Computer Vision: Key Building Blocks in Landmark Architectures [34.542592986038265]
本報告では,コンピュータビジョンにおけるキーデザインパターンの進化を,影響力のある6つの論文から分析する。
本稿では,残差接続を導入したResNetについて概説する。
画像パッチのシーケンスにトランスフォーマーアーキテクチャを適用し,新たなパラダイムを確立したビジョントランスフォーマー(ViT)について検討する。
論文 参考訳(メタデータ) (2025-07-31T09:08:11Z) - RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - Self-Supervised Transformer-based Contrastive Learning for Intrusion Detection Systems [1.1265248232450553]
本稿では,生パケット列上の一般化可能な侵入検出のための自己教師付きコントラスト学習手法を提案する。
本フレームワークは,既存のNetFlow自己管理手法と比較して,優れた性能を示す。
我々のモデルは,ラベル付き限られたデータを用いた教師付き侵入検知のための強力なベースラインを提供する。
論文 参考訳(メタデータ) (2025-05-12T13:42:00Z) - Manifold meta-learning for reduced-complexity neural system identification [1.0276024900942875]
低次元多様体を発見するメタラーニングフレームワークを提案する。
この多様体は、関連する力学系のクラスによって生成される入力出力シーケンスのメタデータセットから学習される。
両レベルメタラーニングアプローチとは異なり,本手法では,学習多様体に直接データセットをマッピングする補助的ニューラルネットワークを用いる。
論文 参考訳(メタデータ) (2025-04-16T06:49:56Z) - Agent-driven Generative Semantic Communication with Cross-Modality and Prediction [57.335922373309074]
本稿では,強化学習に基づくエージェント駆動型ジェネリックセマンティックコミュニケーションフレームワークを提案する。
本研究では, エージェント支援型セマンティックエンコーダを開発し, 適応的セマンティック抽出とサンプリングを行う。
設計モデルの有効性をUA-DETRACデータセットを用いて検証し、全体的なA-GSCフレームワークの性能向上を実証した。
論文 参考訳(メタデータ) (2024-04-10T13:24:27Z) - GreenLightningAI: An Efficient AI System with Decoupled Structural and
Quantitative Knowledge [0.0]
強力な、人気のあるディープニューラルネットワークのトレーニングには、非常に高い経済的および環境的コストが伴う。
この作業は、GreenLightningAIを提案することによって、根本的に異なるアプローチを取る。
新しいAIシステムは、所定のサンプルに対してシステムサブセットを選択するために必要な情報を格納する。
我々は,AIシステムを新しいサンプルで再学習する際に,構造情報を無修正で保持できることを実験的に示す。
論文 参考訳(メタデータ) (2023-12-15T17:34:11Z) - End-to-End Speech Recognition: A Survey [68.35707678386949]
本調査の目的は、E2E ASRモデルの分類とそれに対応する改善を提供することである。
E2E ASRのすべての関連する側面は、パフォーマンスとデプロイメントの機会に関する議論を伴う、この作業でカバーされている。
論文 参考訳(メタデータ) (2023-03-03T01:46:41Z) - Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。
種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。
共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文 参考訳(メタデータ) (2020-10-01T17:51:49Z) - Deep Autoencoding Topic Model with Scalable Hybrid Bayesian Inference [55.35176938713946]
我々は、ガンマ分布の階層構造を用いて、その多確率層生成ネットワークを構築するディープ・オートエンコーディング・トピック・モデル(DATM)を開発した。
Weibull上向き変分エンコーダを提案する。このエンコーダは深層ニューラルネットワークを介して情報を上向きに伝播し,次いで下向き生成モデルを提案する。
大規模コーパス上での教師なしおよび教師なしの学習タスクにおいて,モデルの有効性とスケーラビリティを実証した。
論文 参考訳(メタデータ) (2020-06-15T22:22:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。