論文の概要: BECTRA: Transducer-based End-to-End ASR with BERT-Enhanced Encoder
- arxiv url: http://arxiv.org/abs/2211.00792v1
- Date: Wed, 2 Nov 2022 00:10:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 13:54:48.285089
- Title: BECTRA: Transducer-based End-to-End ASR with BERT-Enhanced Encoder
- Title(参考訳): BECTRA:BERTエンコーダを用いたトランスデューサによるエンドツーエンドASR
- Authors: Yosuke Higuchi, Tetsuji Ogawa, Tetsunori Kobayashi, Shinji Watanabe
- Abstract要約: 本稿では,新しいエンドツーエンド自動音声認識(E2E-ASR)モデルであるBERT-CTC-Transducer(BECTRA)を提案する。
BECTRAは、BERT-CTCをエンコーダとして採用し、ターゲットタスクに適した語彙を用いてASR固有のデコーダを訓練するトランスデューサベースのモデルである。
- 参考スコア(独自算出の注目度): 43.39035144463951
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present BERT-CTC-Transducer (BECTRA), a novel end-to-end automatic speech
recognition (E2E-ASR) model formulated by the transducer with a BERT-enhanced
encoder. Integrating a large-scale pre-trained language model (LM) into E2E-ASR
has been actively studied, aiming to utilize versatile linguistic knowledge for
generating accurate text. One crucial factor that makes this integration
challenging lies in the vocabulary mismatch; the vocabulary constructed for a
pre-trained LM is generally too large for E2E-ASR training and is likely to
have a mismatch against a target ASR domain. To overcome such an issue, we
propose BECTRA, an extended version of our previous BERT-CTC, that realizes
BERT-based E2E-ASR using a vocabulary of interest. BECTRA is a transducer-based
model, which adopts BERT-CTC for its encoder and trains an ASR-specific decoder
using a vocabulary suitable for a target task. With the combination of the
transducer and BERT-CTC, we also propose a novel inference algorithm for taking
advantage of both autoregressive and non-autoregressive decoding. Experimental
results on several ASR tasks, varying in amounts of data, speaking styles, and
languages, demonstrate that BECTRA outperforms BERT-CTC by effectively dealing
with the vocabulary mismatch while exploiting BERT knowledge.
- Abstract(参考訳): bert-ctc-transducer (bectra) は、bertエンハンスエンコーダを持つトランスデューサによって定式化された、新しいエンドツーエンド自動音声認識 (e2e-asr) モデルである。
大規模事前学習型言語モデル(LM)をE2E-ASRに統合する研究が活発に行われている。
事前訓練されたLMのために構築された語彙は一般にE2E-ASRトレーニングには大きすぎるため、ターゲットのASRドメインに対してミスマッチする可能性がある。
そこで本稿では,従来のBERT-CTCの拡張版であるBECTRAを提案し,関心の語彙を用いてBERTベースのE2E-ASRを実現する。
BECTRAは、BERT-CTCをエンコーダとして採用し、ターゲットタスクに適した語彙を用いてASR固有のデコーダを訓練するトランスデューサベースのモデルである。
また,トランスデューサとBERT-CTCを組み合わせることで,自己回帰型と非自己回帰型の両方を利用した新しい推論アルゴリズムを提案する。
データ量、話し方、言語によって異なるいくつかのasrタスクの実験結果は、bectraがbertの知識を活用しながら語彙ミスマッチを効果的に処理することでbert-ctcよりも優れていることを示している。
関連論文リスト
- Large Generative Model-assisted Talking-face Semantic Communication System [55.42631520122753]
本研究では,LGM-TSC(Large Generative Model-assisted Talking-face Semantic Communication)システムを提案する。
送信機のジェネレーティブセマンティック・エクストラクタ(GSE)は、意味的にスパースな音声映像を高情報密度のテキストに変換する。
意味的曖昧さと修正のためのLarge Language Model (LLM)に基づくPrivate Knowledge Base (KB)。
BERT-VITS2とSadTalkerモデルを用いた生成意味再構成(GSR)により、テキストを高QoE音声ビデオに変換する。
論文 参考訳(メタデータ) (2024-11-06T12:45:46Z) - BELT-2: Bootstrapping EEG-to-Language representation alignment for multi-task brain decoding [24.54436986074267]
本稿では,脳波信号からの符号化性能と復号性能の両立を目的としたマルチタスクモデルであるBELT-2を紹介する。
BELT-2は、1)バイトペア符号化(BPE)レベルのEEG言語アライメントを採用し、2)マルチタスクトレーニングとデコーディングをEEGドメインに統合する最初の試みである。
これらの革新的な試みによりBELT-2は先駆的なブレークスルーとなり、非侵襲的な脳信号からコヒーレントで読みやすい文を復号できる分野における最初の作品となった。
論文 参考訳(メタデータ) (2024-08-28T12:30:22Z) - Agent-driven Generative Semantic Communication with Cross-Modality and Prediction [57.335922373309074]
本稿では,強化学習に基づくエージェント駆動型ジェネリックセマンティックコミュニケーションフレームワークを提案する。
本研究では, エージェント支援型セマンティックエンコーダを開発し, 適応的セマンティック抽出とサンプリングを行う。
設計モデルの有効性をUA-DETRACデータセットを用いて検証し、全体的なA-GSCフレームワークの性能向上を実証した。
論文 参考訳(メタデータ) (2024-04-10T13:24:27Z) - Enhancing EEG-to-Text Decoding through Transferable Representations from Pre-trained Contrastive EEG-Text Masked Autoencoder [69.7813498468116]
コントラスト型脳波テキストマスケード自動エンコーダ(CET-MAE)を提案する。
また、E2T-PTR(Pretrained Transferable Representationsを用いたEEG-to-Text decoding)と呼ばれるフレームワークを開発し、EEGシーケンスからテキストをデコードする。
論文 参考訳(メタデータ) (2024-02-27T11:45:21Z) - Utilizing BERT for Information Retrieval: Survey, Applications,
Resources, and Challenges [4.588192657854766]
本調査は、情報検索(IR)にBERTのような事前訓練されたトランスフォーマーエンコーダを適用するアプローチに焦点を当てる。
i) 長文処理, (ii) 意味情報の統合, (iii) 有効性と効率のバランス, (iv) 用語の重み付け予測, (v) クエリ拡張, (vi) 文書拡張の6つの高レベルカテゴリに分類した。
特定のタスクに対して、細かな調整されたBERTエンコーダは依然としてパフォーマンスが良く、デプロイメントコストも低いことが分かりました。
論文 参考訳(メタデータ) (2024-02-18T23:22:40Z) - Rethinking Speech Recognition with A Multimodal Perspective via Acoustic
and Semantic Cooperative Decoding [29.80299587861207]
ASRのための音響・意味的協調デコーダ(ASCD)を提案する。
音響的特徴と意味的特徴を2つの異なる段階で処理するバニラデコーダとは異なり、ASCDはそれらを協調的に統合する。
音響情報と意味情報の両方を協調的に活用することにより,ASCDは性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-05-23T13:25:44Z) - BERT-LID: Leveraging BERT to Improve Spoken Language Identification [12.179375898668614]
言語識別とは、音声セグメントによって伝達される言語の同一性を自動的に判定するタスクである。
中・長期間の発話において高い精度で言語識別が達成されているにもかかわらず、短い発話のパフォーマンスはまだまだ満足できない。
本稿では,BERTに基づく言語識別システム(BERT-LID)を提案する。
論文 参考訳(メタデータ) (2022-03-01T10:01:25Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - Context-Aware Transformer Transducer for Speech Recognition [21.916660252023707]
本稿では,この文脈信号を利用して,最先端の変圧器ベースASRシステムを改善する新しい文脈対応変圧器トランスデューサ(CATT)ネットワークを提案する。
BERTベースのコンテキストエンコーダを用いたCATTは、ベースライントランスデューサの単語誤り率を改善し、既存の深層文脈モデルよりも24.2%、19.4%向上することを示す。
論文 参考訳(メタデータ) (2021-11-05T04:14:35Z) - Training ELECTRA Augmented with Multi-word Selection [53.77046731238381]
本稿では,マルチタスク学習に基づくELECTRAの改良を目的としたテキストエンコーダ事前学習手法を提案する。
具体的には、識別器を訓練し、置換トークンを同時に検出し、候補集合から元のトークンを選択する。
論文 参考訳(メタデータ) (2021-05-31T23:19:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。