論文の概要: Conversational Speech Recognition by Learning Audio-textual Cross-modal
Contextual Representation
- arxiv url: http://arxiv.org/abs/2310.14278v1
- Date: Sun, 22 Oct 2023 11:57:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 00:42:19.726428
- Title: Conversational Speech Recognition by Learning Audio-textual Cross-modal
Contextual Representation
- Title(参考訳): 音声-テクスト間文脈表現の学習による会話音声認識
- Authors: Kun Wei, Bei Li, Hang Lv, Quan Lu, Ning Jiang, Lei Xie
- Abstract要約: 本稿では,クロスモーダルな会話表現を備えたコンフォーマーエンコーダデコーダモデルを拡張した,新しい会話型ASRシステムを提案する。
提案手法は、特殊エンコーダとモーダルレベルのマスク入力により、事前訓練された音声とテキストモデルを組み合わせる。
クロスモーダル表現と会話表現の両方をデコーダに導入することで、我々のモデルは情報損失のない長い文よりもコンテキストを保ちます。
- 参考スコア(独自算出の注目度): 29.591744847539843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic Speech Recognition (ASR) in conversational settings presents unique
challenges, including extracting relevant contextual information from previous
conversational turns. Due to irrelevant content, error propagation, and
redundancy, existing methods struggle to extract longer and more effective
contexts. To address this issue, we introduce a novel Conversational ASR
system, extending the Conformer encoder-decoder model with cross-modal
conversational representation. Our approach leverages a cross-modal extractor
that combines pre-trained speech and text models through a specialized encoder
and a modal-level mask input. This enables the extraction of richer historical
speech context without explicit error propagation. We also incorporate
conditional latent variational modules to learn conversational level attributes
such as role preference and topic coherence. By introducing both cross-modal
and conversational representations into the decoder, our model retains context
over longer sentences without information loss, achieving relative accuracy
improvements of 8.8% and 23% on Mandarin conversation datasets HKUST and
MagicData-RAMC, respectively, compared to the standard Conformer model.
- Abstract(参考訳): 会話設定における自動音声認識(ASR)は、前の会話のターンから関連するコンテキスト情報を抽出するなど、ユニークな課題を提示する。
無関係な内容、エラーの伝播、冗長性のため、既存の手法はより長く効果的なコンテキストを抽出するのに苦労する。
この問題に対処するために,コンバータエンコーダデコーダモデルを拡張した新しい会話型ASRシステムを提案する。
提案手法は,事前学習された音声とテキストモデルを専用エンコーダとモーダルレベルマスク入力で結合したクロスモーダル抽出器を利用する。
これにより、明示的な誤り伝播なしに、よりリッチな歴史的音声コンテキストを抽出することができる。
また,条件付き潜在変動モジュールを取り入れ,役割選好やトピックコヒーレンスといった会話レベルの属性を学習する。
このデコーダにクロスモーダル表現と会話表現の両方を導入することで,従来のコンフォーマーモデルと比較して,マンダリンの会話データセットHKUSTとMagicData-RAMCの相対精度を8.8%,23%向上させることができた。
関連論文リスト
- Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Leveraging Acoustic Contextual Representation by Audio-textual
Cross-modal Learning for Conversational ASR [25.75615870266786]
先行する音声から直接文脈表現を学習するための音声・テキスト・モーダル表現抽出器を提案する。
提案手法の有効性を複数のマンダリン会話コーパスで検証した。
論文 参考訳(メタデータ) (2022-07-03T13:32:24Z) - Conversational Speech Recognition By Learning Conversation-level
Characteristics [25.75615870266786]
本稿では,会話レベルの特徴を主成分とする対話型ASRモデルを提案する。
2つのマンダリン会話型ASRタスクの実験により、提案モデルが最大12%の相対的文字誤り率(CER)を減少させることを示した。
論文 参考訳(メタデータ) (2022-02-16T04:33:05Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Spoken Style Learning with Multi-modal Hierarchical Context Encoding for
Conversational Text-to-Speech Synthesis [59.27994987902646]
歴史的会話から話し言葉のスタイルを学習する研究は、まだ初期段階にある。
歴史的会話の書き起こしのみが考慮され、歴史的スピーチの話し方を無視している。
マルチモーダル階層型コンテキスト符号化を用いた音声スタイル学習手法を提案する。
論文 参考訳(メタデータ) (2021-06-11T08:33:52Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - Diversifying Dialogue Generation with Non-Conversational Text [38.03510529185192]
非会話的テキストを活用することで対話生成を多様化する新しい視点を提案する。
我々は、フォーラムコメント、イディオム、本スニペットを含む複数の情報源から、大規模な非会話コーパスを収集する。
得られたモデルは、2つの会話データセット上でテストされ、コンテキストとの関連性を犠牲にすることなく、はるかに多様な応答を生成することが示されている。
論文 参考訳(メタデータ) (2020-05-09T02:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。