論文の概要: Braille-to-Speech Generator: Audio Generation Based on Joint Fine-Tuning of CLIP and Fastspeech2
- arxiv url: http://arxiv.org/abs/2407.14212v1
- Date: Fri, 19 Jul 2024 11:18:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 17:44:34.044230
- Title: Braille-to-Speech Generator: Audio Generation Based on Joint Fine-Tuning of CLIP and Fastspeech2
- Title(参考訳): 点字音声生成:CLIPとFastspeech2の結合微細調整に基づくオーディオ生成
- Authors: Chun Xu, En-Wei Sun,
- Abstract要約: 中国語の文脈に基づく画像合成フレームワークCLIP-KNN-Fastspeech2が構築された。
このフレームワークは、複数の基本モデルを統合し、独立した事前学習と共同微調整の戦略を採用する。
複数の公開データセットの実験的結果は、BLEU4、FAD(Fr'echet Audio Distance)、WER(Word Error Ratio)、推論速度などの客観的指標を改善したことを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An increasing number of Chinese people are troubled by different degrees of visual impairment, which has made the modal conversion between a single image or video frame in the visual field and the audio expressing the same information a research hotspot. Deep learning technologies such as OCR+Vocoder and Im2Wav enable English audio synthesis or image-to-sound matching in a self-supervised manner. However, the audio data used for training is limited and English is not universal for visually impaired people with different educational levels. Therefore, for the sake of solving the problems of data volume and language applicability to improve the reading efficiency of visually impaired people, a set of image-to-speech framework CLIP-KNN-Fastspeech2 based on the Chinese context was constructed. The framework integrates multiple basic models and adopts the strategy of independent pre-training and joint fine-tuning. First, the Chinese CLIP and Fastspeech2 text-to-speech models were pre-trained on two public datasets, MUGE and Baker, respectively, and their convergence was verified. Subsequently, joint fine-tuning was performed using a self-built Braille image dataset. Experimental results on multiple public datasets such as VGGSound, Flickr8k, ImageHear, and the self-built Braille dataset BIT-DP show that the model has improved objective indicators such as BLEU4,FAD(Fr\'echet Audio Distance), WER(Word Error Ratio), and even inference speed. This verifies that the constructed model still has the ability to synthesize high-quality speech under limited data, and also proves the effectiveness of the joint training strategy that integrates multiple basic models.
- Abstract(参考訳): 多くの中国人が視覚障害の度合いに悩まされているため、視野内の単一の画像やビデオフレームと研究ホットスポットと同じ情報を表現した音声とのモーダル変換が実現している。
OCR+VocoderやIm2Wavのようなディープラーニング技術は、英語の音声合成や画像と音声のマッチングを、自己管理的に実現している。
しかし、訓練に使用される音声データは限られており、教育レベルの異なる視覚障害者には英語は普遍的ではない。
そこで, 視覚障害者の読取効率を向上させるために, データ量と言語適用性の問題を解決するために, 中国語の文脈に基づく画像合成フレームワークCLIP-KNN-Fastspeech2のセットを構築した。
このフレームワークは、複数の基本モデルを統合し、独立した事前学習と共同微調整の戦略を採用する。
まず、中国のCLIPとFastspeech2のテキスト音声モデルは、MUGEとBakerの2つの公開データセットで事前訓練され、それらの収束が検証された。
その後、自作の点字画像データセットを用いて共同微調整を行った。
VGGSound、Flickr8k、ImageHear、自作の点字データセットBIT-DPなどの複数の公開データセットの実験結果は、BLEU4、FAD(Fr\echet Audio Distance)、WER(Word Error Ratio)、推論速度などの客観的指標を改善したことを示している。
このことは、構築されたモデルにはまだ、限られたデータの下で高品質な音声を合成できる能力があることを検証し、また、複数の基本モデルを統合する共同訓練戦略の有効性を証明している。
関連論文リスト
- NEVLP: Noise-Robust Framework for Efficient Vision-Language Pre-training [6.34265125858783]
本稿では,事前学習の少ない視覚言語事前学習のためのノイズロバストフレームワークを提案する。
具体的には、凍結した画像エンコーダと大きな言語モデルとのモダリティギャップを変換器でブリッジする。
ノイズ適応学習と概念強化学習の2つの革新的な学習戦略を導入する。
論文 参考訳(メタデータ) (2024-09-15T01:54:17Z) - Unified Video-Language Pre-training with Synchronized Audio [21.607860535968356]
シンクロナイズドオーディオを用いたビデオ言語事前学習のための拡張フレームワークを提案する。
我々のフレームワークは、統合された自己教師型変換器で三モーダル表現を学習する。
0.9Mデータのみを事前学習した本モデルは,最先端のベースラインに対する結果の改善を実現する。
論文 参考訳(メタデータ) (2024-05-12T07:59:46Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation [55.15299351110525]
本稿では,1つの訓練されたモデルで異なる言語を認識可能な文レベル多言語視覚音声認識(VSR)について検討する。
視覚音声単位を用いた新しい学習手法を提案する。
我々は、従来の言語固有のVSRモデルに匹敵する性能を達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2024-01-18T08:46:02Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - LipSound2: Self-Supervised Pre-Training for Lip-to-Speech Reconstruction
and Lip Reading [24.744371143092614]
本研究の目的は、ビデオ中の音声と視覚ストリームの自然な共起を利用して、音声再構成(ビデオから音声)のためのクロスモーダル自己教師による事前学習の効果を検討することである。
本稿では,エンコーダ・デコーダアーキテクチャと位置認識型アテンション機構を組み合わせたLipSound2を提案する。
論文 参考訳(メタデータ) (2021-12-09T08:11:35Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。