論文の概要: Leveraging Acoustic Contextual Representation by Audio-textual
Cross-modal Learning for Conversational ASR
- arxiv url: http://arxiv.org/abs/2207.01039v1
- Date: Sun, 3 Jul 2022 13:32:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 16:31:23.706155
- Title: Leveraging Acoustic Contextual Representation by Audio-textual
Cross-modal Learning for Conversational ASR
- Title(参考訳): 会話型asrのための音声-文間クロスモーダル学習による音響文脈表現の活用
- Authors: Kun Wei, Yike Zhang, Sining Sun, Lei Xie, Long Ma
- Abstract要約: 先行する音声から直接文脈表現を学習するための音声・テキスト・モーダル表現抽出器を提案する。
提案手法の有効性を複数のマンダリン会話コーパスで検証した。
- 参考スコア(独自算出の注目度): 25.75615870266786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leveraging context information is an intuitive idea to improve performance on
conversational automatic speech recognition(ASR). Previous works usually adopt
recognized hypotheses of historical utterances as preceding context, which may
bias the current recognized hypothesis due to the inevitable
historicalrecognition errors. To avoid this problem, we propose an
audio-textual cross-modal representation extractor to learn contextual
representations directly from preceding speech. Specifically, it consists of
two modal-related encoders, extracting high-level latent features from speech
and the corresponding text, and a cross-modal encoder, which aims to learn the
correlation between speech and text. We randomly mask some input tokens and
input sequences of each modality. Then a token-missing or modal-missing
prediction with a modal-level CTC loss on the cross-modal encoder is performed.
Thus, the model captures not only the bi-directional context dependencies in a
specific modality but also relationships between different modalities. Then,
during the training of the conversational ASR system, the extractor will be
frozen to extract the textual representation of preceding speech, while such
representation is used as context fed to the ASR decoder through attention
mechanism. The effectiveness of the proposed approach is validated on several
Mandarin conversation corpora and the highest character error rate (CER)
reduction up to 16% is achieved on the MagicData dataset.
- Abstract(参考訳): 文脈情報を活用することは、会話自動音声認識(ASR)の性能を向上させる直感的なアイデアである。
先行研究は通常、過去の発話の認識仮説を先行する文脈として採用しており、これは必然的な歴史的認識誤りによる現在の仮説に偏っている可能性がある。
この問題を回避するために,先行する音声から文脈表現を直接学習する音声-文間クロスモーダル表現抽出器を提案する。
具体的には、2つのモーダル関連エンコーダで構成され、音声と対応するテキストから高レベル遅延特徴を抽出し、音声とテキストの相関関係を学習することを目的としたクロスモーダルエンコーダである。
入力トークンと各モードの入力シーケンスをランダムにマスキングする。
次に、クロスモーダルエンコーダのモードレベルctc損失を伴うトークンミスまたはモーダルミス予測を行う。
したがって、モデルは特定のモダリティにおける双方向のコンテキスト依存性だけでなく、異なるモダリティ間の関係もキャプチャする。
そして、会話型ASRシステムのトレーニング中に、抽出器を凍結して先行する音声のテキスト表現を抽出し、その表現を注意機構を介してASRデコーダに供給されるコンテキストとして使用する。
提案手法の有効性は,いくつかのマンダリン会話コーパス上で検証され,magicdataデータセットでは最大16%の文字誤り率(cer)が達成される。
関連論文リスト
- Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - Enhancing Dialogue Speech Recognition with Robust Contextual Awareness via Noise Representation Learning [6.363223418619587]
本研究では,CNRL(Context Noise Representation Learning)を導入し,雑音に対する堅牢性を向上し,対話音声認識の精度を向上する。
本手法は,音声対話の評価に基づいて,ベースラインよりも優れた結果を示す。
論文 参考訳(メタデータ) (2024-08-12T10:21:09Z) - VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - Conversational Speech Recognition by Learning Audio-textual Cross-modal Contextual Representation [27.926862030684926]
クロスモーダルな会話表現を備えたコンフォーマーエンコーダデコーダモデルを拡張した会話型ASRシステムを提案する。
提案手法は、特殊エンコーダとモーダルレベルのマスク入力により、事前訓練された音声とテキストモデルを組み合わせる。
クロスモーダル表現と会話表現の両方をデコーダに導入することで、我々のモデルは情報損失のない長い文よりもコンテキストを保ちます。
論文 参考訳(メタデータ) (2023-10-22T11:57:33Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - Towards Relation Extraction From Speech [56.36416922396724]
本稿では,新たな聴取情報抽出タスク,すなわち音声関係抽出を提案する。
本研究では,音声合成システムによる音声関係抽出のための訓練データセットを構築し,英語母語話者によるクラウドソーシングによるテストデータセットを構築した。
我々は,音声関係抽出における課題を識別するための包括的実験を行い,今後の探索に光を当てる可能性がある。
論文 参考訳(メタデータ) (2022-10-17T05:53:49Z) - Conversational Speech Recognition By Learning Conversation-level
Characteristics [25.75615870266786]
本稿では,会話レベルの特徴を主成分とする対話型ASRモデルを提案する。
2つのマンダリン会話型ASRタスクの実験により、提案モデルが最大12%の相対的文字誤り率(CER)を減少させることを示した。
論文 参考訳(メタデータ) (2022-02-16T04:33:05Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion
Recognition: An Update for the Deep Learning Era [0.0]
3つの現代のASRシステムを適用することで、元のスピーチから転写文を作成します。
音響音声機能の抽出と学習には、openSMILE、openXBoW、DeepSpectrum、auDeepを利用します。
IEMOCAPのスピーカーに依存しない開発およびテストパーティションで、最先端の非重み付き平均リコール値73.6,%$と73.8,%$を達成します。
論文 参考訳(メタデータ) (2021-04-20T17:10:01Z) - End-to-end speech-to-dialog-act recognition [38.58540444573232]
本稿では,音声を直接ダイアログに変換するエンド・ツー・エンドのモデルを提案する。
提案モデルでは,対話行動認識ネットワークは,その潜在層において,音声から単語へのASRモデルと結合する。
ネットワーク全体がエンドツーエンドで微調整されている。
論文 参考訳(メタデータ) (2020-04-23T18:44:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。