論文の概要: MultiQT: Multimodal Learning for Real-Time Question Tracking in Speech
- arxiv url: http://arxiv.org/abs/2005.00812v2
- Date: Tue, 12 May 2020 17:42:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 12:51:41.994340
- Title: MultiQT: Multimodal Learning for Real-Time Question Tracking in Speech
- Title(参考訳): multiqt:リアルタイム質問追跡のためのマルチモーダル学習
- Authors: Jakob D. Havtorn, Jan Latko, Joakim Edin, Lasse Borgholt, Lars
Maal{\o}e, Lorenzo Belgrano, Nicolai F. Jacobsen, Regitze Sdun, \v{Z}eljko
Agi\'c
- Abstract要約: 本稿では,音声中のリアルタイムシーケンスラベリングに対する新しいアプローチを提案する。
本モデルでは、音声とそれ自身のテキスト表現を2つの異なるモダリティまたはビューとして扱う。
テキストや音声のみと比較して,2つのモードから共同学習を行うことで大きな効果が得られた。
- 参考スコア(独自算出の注目度): 4.384576489684272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address a challenging and practical task of labeling questions in speech
in real time during telephone calls to emergency medical services in English,
which embeds within a broader decision support system for emergency
call-takers. We propose a novel multimodal approach to real-time sequence
labeling in speech. Our model treats speech and its own textual representation
as two separate modalities or views, as it jointly learns from streamed audio
and its noisy transcription into text via automatic speech recognition. Our
results show significant gains of jointly learning from the two modalities when
compared to text or audio only, under adverse noise and limited volume of
training data. The results generalize to medical symptoms detection where we
observe a similar pattern of improvements with multimodal learning.
- Abstract(参考訳): 緊急通報者のための幅広い意思決定支援システムに組み込まれている英語の緊急医療サービスへの通話中に、リアルタイムで音声に質問をラベル付けするという、挑戦的で実用的な課題に対処します。
音声におけるリアルタイムシーケンスラベリングに対する新しいマルチモーダルアプローチを提案する。
本モデルでは,ストリーム音声から学習し,その雑音を自動音声認識によってテキストに書き起こすことによって,音声とそのテキスト表現を2つの異なるモーダルやビューとして扱う。
以上の結果から,テキストや音声のみと比較した場合,不適切な雑音下,トレーニングデータの限られた量において,共同学習が有意な向上を示した。
その結果,マルチモーダル学習による類似した改善パターンを観察できる医学的症状検出に一般化した。
関連論文リスト
- Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - MMSpeech: Multi-modal Multi-task Encoder-Decoder Pre-training for Speech
Recognition [75.12948999653338]
マンダリン自動音声認識(ASR)のためのマルチタスクエンコーダ-デコーダ事前学習フレームワーク(MMSpeech)を提案する。
我々は、音声とテキストデータを用いた5つの自己教師付きタスクを含むマルチタスク学習フレームワークを採用する。
AISHELL-1を用いた実験により,提案手法は従来手法と比較して40%以上の改善が得られた。
論文 参考訳(メタデータ) (2022-11-29T13:16:09Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Multi-Modal Multi-Correlation Learning for Audio-Visual Speech
Separation [38.75352529988137]
音声・視覚的音声分離作業を対象としたマルチモーダル・マルチ相関学習フレームワークを提案する。
我々は,(1)識別相関(音色と顔の属性間の相関),(2)音声相関という2つの重要な相関関係を定義した。
この2つの相関関係を最大化するために,コントラスト学習法や逆学習法を適用した。
論文 参考訳(メタデータ) (2022-07-04T04:53:39Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - MAESTRO: Matched Speech Text Representations through Modality Matching [35.566604806335626]
Maestroは、音声とテキストのモダリティから学習した表現を統一する自己教師型訓練手法である。
単語誤り率(WER)を11%低減したVoxPopuli多言語ASR上でのSOTA(State-of-the-art)を確立する。
我々はCoVoST 2上に新しい最先端のSOTA(State-of-the-art)を確立し、21以上の言語で平均2.8BLEUを改善した。
論文 参考訳(メタデータ) (2022-04-07T12:48:16Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z) - Silent versus modal multi-speaker speech recognition from ultrasound and
video [43.919073642794324]
舌の超音波画像と唇の映像から多話者音声認識について検討した。
モーダル音声からの画像データの訓練を行い,2つの発話モード(無声モードとモーダル音声)のマッチングテストセットの評価を行った。
画像データからの無声音声認識はモーダル音声認識に比べて低調であり,訓練とテストの発話モードミスマッチが原因と考えられる。
論文 参考訳(メタデータ) (2021-02-27T21:34:48Z) - Multi-view Temporal Alignment for Non-parallel Articulatory-to-Acoustic
Speech Synthesis [59.623780036359655]
A2A(Articulatory-to-Aoustic)合成は、音声刺激器のキャプチャされた動きから可聴音声の生成を指します。
この手法には、病気や怪我のためにもはや話せない人々への口頭コミュニケーションの回復など、多くの応用がある。
本稿では,多視点学習の理論に基づく問題解決法を提案する。
論文 参考訳(メタデータ) (2020-12-30T15:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。