論文の概要: Conversational Speech Recognition by Learning Audio-textual Cross-modal
Contextual Representation
- arxiv url: http://arxiv.org/abs/2310.14278v1
- Date: Sun, 22 Oct 2023 11:57:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 00:42:19.726428
- Title: Conversational Speech Recognition by Learning Audio-textual Cross-modal
Contextual Representation
- Title(参考訳): 音声-テクスト間文脈表現の学習による会話音声認識
- Authors: Kun Wei, Bei Li, Hang Lv, Quan Lu, Ning Jiang, Lei Xie
- Abstract要約: 本稿では,クロスモーダルな会話表現を備えたコンフォーマーエンコーダデコーダモデルを拡張した,新しい会話型ASRシステムを提案する。
提案手法は、特殊エンコーダとモーダルレベルのマスク入力により、事前訓練された音声とテキストモデルを組み合わせる。
クロスモーダル表現と会話表現の両方をデコーダに導入することで、我々のモデルは情報損失のない長い文よりもコンテキストを保ちます。
- 参考スコア(独自算出の注目度): 29.591744847539843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic Speech Recognition (ASR) in conversational settings presents unique
challenges, including extracting relevant contextual information from previous
conversational turns. Due to irrelevant content, error propagation, and
redundancy, existing methods struggle to extract longer and more effective
contexts. To address this issue, we introduce a novel Conversational ASR
system, extending the Conformer encoder-decoder model with cross-modal
conversational representation. Our approach leverages a cross-modal extractor
that combines pre-trained speech and text models through a specialized encoder
and a modal-level mask input. This enables the extraction of richer historical
speech context without explicit error propagation. We also incorporate
conditional latent variational modules to learn conversational level attributes
such as role preference and topic coherence. By introducing both cross-modal
and conversational representations into the decoder, our model retains context
over longer sentences without information loss, achieving relative accuracy
improvements of 8.8% and 23% on Mandarin conversation datasets HKUST and
MagicData-RAMC, respectively, compared to the standard Conformer model.
- Abstract(参考訳): 会話設定における自動音声認識(ASR)は、前の会話のターンから関連するコンテキスト情報を抽出するなど、ユニークな課題を提示する。
無関係な内容、エラーの伝播、冗長性のため、既存の手法はより長く効果的なコンテキストを抽出するのに苦労する。
この問題に対処するために,コンバータエンコーダデコーダモデルを拡張した新しい会話型ASRシステムを提案する。
提案手法は,事前学習された音声とテキストモデルを専用エンコーダとモーダルレベルマスク入力で結合したクロスモーダル抽出器を利用する。
これにより、明示的な誤り伝播なしに、よりリッチな歴史的音声コンテキストを抽出することができる。
また,条件付き潜在変動モジュールを取り入れ,役割選好やトピックコヒーレンスといった会話レベルの属性を学習する。
このデコーダにクロスモーダル表現と会話表現の両方を導入することで,従来のコンフォーマーモデルと比較して,マンダリンの会話データセットHKUSTとMagicData-RAMCの相対精度を8.8%,23%向上させることができた。
関連論文リスト
- VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-23T00:36:06Z) - Emphasis Rendering for Conversational Text-to-Speech with Multi-modal Multi-scale Context Modeling [40.32021786228235]
Conversational Text-to-Speech (CTTS) は、会話設定内で適切なスタイルで発話を正確に表現することを目的としている。
ER-CTTSと呼ばれるCTTSモデルのための新しい強調レンダリング手法を提案する。
データ不足に対処するため、既存の会話データセット(DailyTalk)に強調強調アノテーションを作成します。
論文 参考訳(メタデータ) (2024-10-12T13:02:31Z) - Style-Talker: Finetuning Audio Language Model and Style-Based Text-to-Speech Model for Fast Spoken Dialogue Generation [16.724603503894166]
Style-Talkerは、高速音声ダイアログ生成のためのスタイルベースのTSモデルとともに、オーディオLLMを微調整する革新的なフレームワークである。
実験の結果,Style-Talkerは対話の自然さとコヒーレンスの両方の観点から,従来のカスケードと音声音声のベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-08-13T04:35:11Z) - VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Leveraging Acoustic Contextual Representation by Audio-textual
Cross-modal Learning for Conversational ASR [25.75615870266786]
先行する音声から直接文脈表現を学習するための音声・テキスト・モーダル表現抽出器を提案する。
提案手法の有効性を複数のマンダリン会話コーパスで検証した。
論文 参考訳(メタデータ) (2022-07-03T13:32:24Z) - Conversational Speech Recognition By Learning Conversation-level
Characteristics [25.75615870266786]
本稿では,会話レベルの特徴を主成分とする対話型ASRモデルを提案する。
2つのマンダリン会話型ASRタスクの実験により、提案モデルが最大12%の相対的文字誤り率(CER)を減少させることを示した。
論文 参考訳(メタデータ) (2022-02-16T04:33:05Z) - Spoken Style Learning with Multi-modal Hierarchical Context Encoding for
Conversational Text-to-Speech Synthesis [59.27994987902646]
歴史的会話から話し言葉のスタイルを学習する研究は、まだ初期段階にある。
歴史的会話の書き起こしのみが考慮され、歴史的スピーチの話し方を無視している。
マルチモーダル階層型コンテキスト符号化を用いた音声スタイル学習手法を提案する。
論文 参考訳(メタデータ) (2021-06-11T08:33:52Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。