論文の概要: Augmenting Images for ASR and TTS through Single-loop and Dual-loop
Multimodal Chain Framework
- arxiv url: http://arxiv.org/abs/2011.02099v1
- Date: Wed, 4 Nov 2020 02:26:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 22:50:19.423205
- Title: Augmenting Images for ASR and TTS through Single-loop and Dual-loop
Multimodal Chain Framework
- Title(参考訳): シングルループおよびデュアルループマルチモーダルチェーンフレームワークによるasrおよびttsの画像拡張
- Authors: Johanes Effendi, Andros Tjandra, Sakriani Sakti, Satoshi Nakamura
- Abstract要約: 画像生成(IG)によるマルチモーダルマシンチェーンフレームワークの改良
複数話者自然言語データに基づく単一ループおよび二重ループアーキテクチャを用いて,ASRおよびTSの画像データの拡張の可能性を検討する。
- 参考スコア(独自算出の注目度): 26.326043261200862
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous research has proposed a machine speech chain to enable automatic
speech recognition (ASR) and text-to-speech synthesis (TTS) to assist each
other in semi-supervised learning and to avoid the need for a large amount of
paired speech and text data. However, that framework still requires a large
amount of unpaired (speech or text) data. A prototype multimodal machine chain
was then explored to further reduce the need for a large amount of unpaired
data, which could improve ASR or TTS even when no more speech or text data were
available. Unfortunately, this framework relied on the image retrieval (IR)
model, and thus it was limited to handling only those images that were already
known during training. Furthermore, the performance of this framework was only
investigated with single-speaker artificial speech data. In this study, we
revamp the multimodal machine chain framework with image generation (IG) and
investigate the possibility of augmenting image data for ASR and TTS using
single-loop and dual-loop architectures on multispeaker natural speech data.
Experimental results revealed that both single-loop and dual-loop multimodal
chain frameworks enabled ASR and TTS to improve their performance using an
image-only dataset.
- Abstract(参考訳): 従来,自動音声認識(ASR)とテキスト音声合成(TTS)を併用して,半教師付き学習において相互に支援し,大量のペア音声とテキストデータの必要性を回避するマシン音声認識チェーンが提案されてきた。
しかし、このフレームワークには大量の非ペア(音声またはテキスト)データが必要である。
プロトタイプのマルチモーダルマシンチェーンは、より多くの未ペアデータの必要性を低減し、音声やテキストデータが得られなくても、ASRやTSが改善される可能性がある。
残念ながら、このフレームワークは画像検索(IR)モデルに依存しており、トレーニング中にすでに知られていた画像のみを扱うことに限られていた。
さらに,この枠組みの性能は単一話者人工音声データでのみ検討された。
本研究では、画像生成(IG)によるマルチモーダルマシンチェーンフレームワークを改良し、マルチスピーカ自然言語データに基づく単一ループおよびデュアルループアーキテクチャを用いて、ASRおよびTSの画像データの拡張の可能性を検討する。
実験の結果、シングルループとデュアルループのマルチモーダルチェーンフレームワークの両方が、画像のみのデータセットを使用して、ASRとTSの性能改善を可能にした。
関連論文リスト
- Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [78.73547416883987]
クロスミクススピーカを提案する。
話者間の表現を集約することでSIMOモデルの限界に対処するネットワーク。
CSE-SOT モデルは,単語誤り率 (WER) をSOT モデルと比較して10%削減し,ハイオーバーラップ音声では16%削減する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - SpeeChain: A Speech Toolkit for Large-Scale Machine Speech Chain [24.173142171714996]
本稿では,大規模使用のための機械学習チェーンを開発するためのオープンソースのツールキットであるSpeeChainを紹介する。
最初のリリースでは、マシン音声チェーンのコアコンポーネントであるTS-to-ASRチェーンに焦点を当てている。
論文 参考訳(メタデータ) (2023-01-08T03:16:56Z) - Multi-scale Transformer Network with Edge-aware Pre-training for
Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。
既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。
マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T11:40:40Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Streaming Multi-Talker ASR with Token-Level Serialized Output Training [53.11450530896623]
t-SOTはマルチトーカー自動音声認識のための新しいフレームワークである。
t-SOTモデルには、推論コストの低減とよりシンプルなモデルアーキテクチャの利点がある。
重複しない音声の場合、t-SOTモデルは精度と計算コストの両面において単一ストーカーのASRモデルと同等である。
論文 参考訳(メタデータ) (2022-02-02T01:27:21Z) - ATCSpeechNet: A multilingual end-to-end speech recognition framework for
air traffic control systems [15.527854608553824]
ATCSpeechNetは、航空交通制御システムにおけるコミュニケーション音声を人間可読テキストに変換する問題に取り組むために提案されている。
特徴工学や辞書を使わずに、音声波形を直接テキストに変換するエンドツーエンドのパラダイムが開発されている。
ATCSpeech corpusの実験結果から,非常に小さなラベル付きコーパスを用いて,提案手法が高い性能を実現することが示された。
論文 参考訳(メタデータ) (2021-02-17T02:27:09Z) - Bootstrap an end-to-end ASR system by multilingual training, transfer
learning, text-to-text mapping and synthetic audio [8.510792628268824]
限られたデータリソースでの音声認識のブートストラップは、長い間活発な研究領域だった。
本稿では,低資源環境下でRNN-Transducerに基づく音声認識システム(ASR)をブートストラップする様々な手法の有効性について検討する。
実験では,ASR後のテキスト・テキスト・マッピングと合成音声を用いた多言語モデルからの変換学習が付加的な改善をもたらすことを示した。
論文 参考訳(メタデータ) (2020-11-25T13:11:32Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。