論文の概要: Masked Audio Text Encoders are Effective Multi-Modal Rescorers
- arxiv url: http://arxiv.org/abs/2305.07677v2
- Date: Wed, 24 May 2023 18:18:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 19:58:46.553963
- Title: Masked Audio Text Encoders are Effective Multi-Modal Rescorers
- Title(参考訳): マルチモーダル・レコーダとしてのマスケオーディオテキストエンコーダ
- Authors: Jinglun Cai, Monica Sunkara, Xilai Li, Anshu Bhatia, Xiao Pan, Sravan
Bodapati
- Abstract要約: Masked Language Models (MLM) は、自動音声認識(ASR)システムにおいて、第2パスの再構成に有効であることが証明されている。
入力空間に音響表現を組み込んだマルチモーダルマスキング言語モデルレスコラーMasked Audio Text (MATE)を提案する。
- 参考スコア(独自算出の注目度): 9.571849226324975
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Masked Language Models (MLMs) have proven to be effective for second-pass
rescoring in Automatic Speech Recognition (ASR) systems. In this work, we
propose Masked Audio Text Encoder (MATE), a multi-modal masked language model
rescorer which incorporates acoustic representations into the input space of
MLM. We adopt contrastive learning for effectively aligning the modalities by
learning shared representations. We show that using a multi-modal rescorer is
beneficial for domain generalization of the ASR system when target domain data
is unavailable. MATE reduces word error rate (WER) by 4%-16% on in-domain, and
3%-7% on out-of-domain datasets, over the text-only baseline. Additionally,
with very limited amount of training data (0.8 hours), MATE achieves a WER
reduction of 8%-23% over the first-pass baseline.
- Abstract(参考訳): Masked Language Models (MLM) は、自動音声認識(ASR)システムにおいて、第2パスの再構成に有効であることが証明されている。
本研究では,MLMの入力空間に音響表現を組み込んだマルチモーダルマスキング言語モデル再構成器であるMasked Audio Text Encoder (MATE)を提案する。
我々は,共有表現を学習することでモダリティを効果的に調整するために,コントラスト学習を採用する。
マルチモーダル・リスコラーは、ターゲットドメインデータが利用できない場合に、ASRシステムのドメイン一般化に有用であることを示す。
MATEは、テキストのみのベースライン上で、ドメイン内の単語エラー率(WER)を4%-16%、ドメイン外のデータセットで3%-7%削減する。
さらに、非常に限られたトレーニングデータ(0.8時間)で、mateは1回のパスベースラインに対して8%-23%の削減を達成している。
関連論文リスト
- Speech Recognition Rescoring with Large Speech-Text Foundation Models [20.145389016219106]
大規模言語モデル(LLM)は、大量のテキストデータを活用することで、人間の言語を理解する能力を示した。
自動音声認識(ASR)システムは、しばしば利用可能な転写音声データによって制限される。
最近の多モーダルな言語モデルでは、強い音声言語理解が示されている。
論文 参考訳(メタデータ) (2024-09-25T06:17:23Z) - Large Language Models Are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法の評価を行い,WERが0.81%,0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024 [61.189875635090225]
大規模言語モデル (LLM) は現在,自動音声認識 (ASR) や機械翻訳 (MT) ,さらにはエンドツーエンド音声翻訳 (ST) など,さまざまなタスクを探索中である。
論文 参考訳(メタデータ) (2024-06-24T16:38:17Z) - A Multimodal Approach to Device-Directed Speech Detection with Large Language Models [41.37311266840156]
我々は、ユーザが各コマンドをトリガーフレーズで開始しなければならないという要求を省くことが可能かどうかを探る。
音声波形から得られた音響情報のみを用いて分類器を訓練する。
本研究では,1-best仮説などの自動音声認識システムのデコーダ出力を,大規模言語モデルへの入力特徴とみなす。
論文 参考訳(メタデータ) (2024-03-21T14:44:03Z) - Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - Multimodal Attention Merging for Improved Speech Recognition and Audio
Event Classification [20.206229252251717]
マルチモーダルアテンション・マージ(MAM)
MAMは、ASR(Automatic Speech Recognition)モデルの相対的な単語誤り率(WER)を最大6.70%削減する。
Learnable-MAMは、注意行列をマージするためのデータ駆動のアプローチであり、さらに2.90%の相対的なASRのWERの減少と18.42%の相対的なAECの減少をもたらす。
論文 参考訳(メタデータ) (2023-12-22T02:08:40Z) - Prompting Large Language Models for Zero-Shot Domain Adaptation in
Speech Recognition [33.07184218085399]
ドメイン固有のテキストプロンプトのみを用いて、LLaMAを用いた2つのゼロショットASRドメイン適応手法を提案する。
実験により、ドメインのプロンプトが1つしかないと、どちらの手法もドメイン外のTedLium-2とSPGIデータセットのワードエラー率(WER)を効果的に削減できることが示された。
論文 参考訳(メタデータ) (2023-06-28T08:29:00Z) - OpenSR: Open-Modality Speech Recognition via Maintaining Multi-Modality
Alignment [57.15449072423539]
オープンモダリティ音声認識(textbfOpenSR)の学習システムを提案する。
OpenSRは、3つの異なる設定で1から1へのモダリティ転送を可能にする。
既存の数ショットとフルショットのリップリード方式と比較して、非常に競争力のあるゼロショット性能を実現している。
論文 参考訳(メタデータ) (2023-06-10T11:04:10Z) - Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages [76.95115818308918]
100以上の言語で自動音声認識(ASR)を行う単一大モデルであるUniversal Speech Model (USM)を導入する。
これは300以上の言語にまたがる1200万時間 (M) の大規模なラベル付き多言語データセット上で、モデルのエンコーダを事前トレーニングすることで達成される。
我々は,多言語事前学習とランダム投影量子化と音声-テキスト・モダリティマッチングを用いて,下流多言語ASRおよび音声-テキスト翻訳タスクの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-02T07:47:18Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。