論文の概要: Automatic Speech Recognition with BERT and CTC Transformers: A Review
- arxiv url: http://arxiv.org/abs/2410.09456v1
- Date: Sat, 12 Oct 2024 09:27:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 14:14:38.059384
- Title: Automatic Speech Recognition with BERT and CTC Transformers: A Review
- Title(参考訳): BERTとCTC変換器による音声認識
- Authors: Noussaiba Djeffal, Hamza Kheddar, Djamel Addou, Ahmed Cherif Mazari, Yassine Himeur,
- Abstract要約: 本稿ではまず,自動音声認識(ASR)の基本概念を紹介し,それに関連する課題について論じる。
その後、BERTとCTC変換器のアーキテクチャと、ASRにおけるそれらの潜在的な応用について説明する。
本稿では,これらのモデルを音声認識タスクに用いたいくつかの研究をレビューし,得られた結果について考察する。
- 参考スコア(独自算出の注目度): 2.2303001890611354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This review paper provides a comprehensive analysis of recent advances in automatic speech recognition (ASR) with bidirectional encoder representations from transformers BERT and connectionist temporal classification (CTC) transformers. The paper first introduces the fundamental concepts of ASR and discusses the challenges associated with it. It then explains the architecture of BERT and CTC transformers and their potential applications in ASR. The paper reviews several studies that have used these models for speech recognition tasks and discusses the results obtained. Additionally, the paper highlights the limitations of these models and outlines potential areas for further research. All in all, this review provides valuable insights for researchers and practitioners who are interested in ASR with BERT and CTC transformers.
- Abstract(参考訳): 本稿では,変換器BERTの双方向エンコーダ表現とコネクショニスト時間分類(CTC)変換器を用いた音声認識(ASR)の最近の進歩を包括的に分析する。
本稿はまず、ASRの基本概念を紹介し、それに関連する課題について論じる。
その後、BERTとCTC変換器のアーキテクチャと、ASRにおけるそれらの潜在的な応用について説明する。
本稿では,これらのモデルを音声認識タスクに用いたいくつかの研究をレビューし,得られた結果について考察する。
さらに,本論文では,これらのモデルの限界を強調し,今後の研究の可能性について概説する。
全体として、このレビューは、BERT と CTC トランスフォーマーで ASR に興味がある研究者や実践者に貴重な洞察を提供する。
関連論文リスト
- Are Transformers in Pre-trained LM A Good ASR Encoder? An Empirical Study [52.91899050612153]
自動音声認識(ASR)のためのエンコーダとして再利用された事前訓練言語モデル(PLM)内のトランスフォーマー
本研究は,事前学習したLMのトランスフォーマーを組み込んだASRタスクにおいて,文字誤り率 (CER) とワード誤り率 (WER) の顕著な改善が認められた。
このことは、事前訓練されたトランスフォーマーに埋め込まれたセマンティックな技術を活用して、ASRシステムの能力を向上させる可能性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-09-26T11:31:18Z) - Joint vs Sequential Speaker-Role Detection and Automatic Speech Recognition for Air-traffic Control [60.35553925189286]
本稿では,標準のASRアーキテクチャを頼りながら,両タスクを協調的に解決するトランスフォーマーベースのジョイントASR-SRDシステムを提案する。
複数のATCデータセット上でのASRとSRDの2つのケースドアプローチとの比較を行った。
論文 参考訳(メタデータ) (2024-06-19T21:11:01Z) - Utilizing BERT for Information Retrieval: Survey, Applications,
Resources, and Challenges [4.588192657854766]
本調査は、情報検索(IR)にBERTのような事前訓練されたトランスフォーマーエンコーダを適用するアプローチに焦点を当てる。
i) 長文処理, (ii) 意味情報の統合, (iii) 有効性と効率のバランス, (iv) 用語の重み付け予測, (v) クエリ拡張, (vi) 文書拡張の6つの高レベルカテゴリに分類した。
特定のタスクに対して、細かな調整されたBERTエンコーダは依然としてパフォーマンスが良く、デプロイメントコストも低いことが分かりました。
論文 参考訳(メタデータ) (2024-02-18T23:22:40Z) - A Comprehensive Survey on Applications of Transformers for Deep Learning
Tasks [60.38369406877899]
Transformerは、シーケンシャルデータ内のコンテキスト関係を理解するために自己認識メカニズムを使用するディープニューラルネットワークである。
Transformerモデルは、入力シーケンス要素間の長い依存関係を処理し、並列処理を可能にする。
我々の調査では、トランスフォーマーベースのモデルのためのトップ5のアプリケーションドメインを特定します。
論文 参考訳(メタデータ) (2023-06-11T23:13:51Z) - BECTRA: Transducer-based End-to-End ASR with BERT-Enhanced Encoder [43.39035144463951]
本稿では,新しいエンドツーエンド自動音声認識(E2E-ASR)モデルであるBERT-CTC-Transducer(BECTRA)を提案する。
BECTRAは、BERT-CTCをエンコーダとして採用し、ターゲットタスクに適した語彙を用いてASR固有のデコーダを訓練するトランスデューサベースのモデルである。
論文 参考訳(メタデータ) (2022-11-02T00:10:43Z) - Exploring Structure-aware Transformer over Interaction Proposals for
Human-Object Interaction Detection [119.93025368028083]
我々は、新しいトランスフォーマー型ヒューマンオブジェクトインタラクション(HOI)検出器、すなわち、インタラクション提案(STIP)による構造認識トランスフォーマーを設計する。
STIPはHOIセット予測の過程を、まず相互作用の提案生成を行い、次に構造認識変換器を介して非パラメトリック相互作用提案をHOI予測に変換する2つのフェーズに分解する。
構造対応トランスフォーマーは、相互作用提案間の相同的意味構造を付加してバニラトランスフォーマーをアップグレードし、各相互作用提案内の人間・物体の局所的空間構造を付加し、HOIを強化する。
論文 参考訳(メタデータ) (2022-06-13T16:21:08Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - Non-autoregressive Transformer-based End-to-end ASR using BERT [13.07939371864781]
本稿では、BERTに基づく変換器に基づくエンドツーエンド自動音声認識(ASR)モデルを提案する。
AISHELL-1データセットで実施された一連の実験は、競争力または優れた結果を示している。
論文 参考訳(メタデータ) (2021-04-10T16:22:17Z) - Long Document Ranking with Query-Directed Sparse Transformer [30.997237454078526]
我々は、変換器自己アテンションにおけるIR-アキシマティック構造を誘導するクエリ指向スパースアテンションを設計する。
我々のモデルであるQDS-Transformerは、ランク付けにおいて望ましい原則特性を強制する。
1つの完全に教師されたTREC文書ランキングベンチマークと3つの数ショットのTREC文書ベンチマークの実験は、QDS-Transformerの一貫性と堅牢性を示している。
論文 参考訳(メタデータ) (2020-10-23T21:57:56Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。