論文の概要: Show and Speak: Directly Synthesize Spoken Description of Images
- arxiv url: http://arxiv.org/abs/2010.12267v2
- Date: Tue, 17 Nov 2020 10:58:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 21:31:59.984657
- Title: Show and Speak: Directly Synthesize Spoken Description of Images
- Title(参考訳): show and speak: 画像の音声記述を直接合成する
- Authors: Xinsheng Wang, Siyuan Feng, Jihua Zhu, Mark Hasegawa-Johnson, Odette
Scharenborg
- Abstract要約: 本稿では,画像の音声記述を直接合成できるSASモデルを提案する。
公開ベンチマークデータベースFlickr8kの実験では、提案されたSASが画像の自然な音声記述を合成できることが示されている。
- 参考スコア(独自算出の注目度): 61.85130163923622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a new model, referred to as the show and speak (SAS)
model that, for the first time, is able to directly synthesize spoken
descriptions of images, bypassing the need for any text or phonemes. The basic
structure of SAS is an encoder-decoder architecture that takes an image as
input and predicts the spectrogram of speech that describes this image. The
final speech audio is obtained from the predicted spectrogram via WaveNet.
Extensive experiments on the public benchmark database Flickr8k demonstrate
that the proposed SAS is able to synthesize natural spoken descriptions for
images, indicating that synthesizing spoken descriptions for images while
bypassing text and phonemes is feasible.
- Abstract(参考訳): 本稿では, 画像の音声記述を直接合成し, テキストや音素の必要を回避し, ショー・アンド・スポーク(SAS)モデルと呼ばれる新しいモデルを提案する。
sasの基本構造は、イメージを入力として、このイメージを記述する音声のスペクトログラムを予測するエンコーダ/デコーダアーキテクチャである。
予測されたスペクトログラムからウェーブネットを介して最終音声を得る。
公開ベンチマークデータベースFlickr8kでの大規模な実験は、提案されたSASが画像の自然な音声記述を合成できることを示し、テキストや音素をバイパスしながら画像の音声記述を合成できることを示している。
関連論文リスト
- Translating speech with just images [23.104041372055466]
既存の画像キャプションシステムを介して、画像とテキストをリンクすることで、この接続を拡張します。
このアプローチは、生成されたキャプションと異なる言語で音声を付加することにより、画像のみを用いた音声翻訳に使用できる。
実際の低リソース言語であるYorub'aについて検討し、Yorub'a-to- English 音声翻訳モデルを提案する。
論文 参考訳(メタデータ) (2024-06-11T10:29:24Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - SpeechCLIP: Integrating Speech with Pre-Trained Vision and Language
Model [56.49878599920353]
SpeechCLIPは、画像を通して音声とテキストをブリッジし、文字起こしなしに音声モデルを強化する新しいフレームワークである。
我々は、最先端の訓練済みのHuBERTとCLIPを活用し、ペア画像と音声キャプションを最小限の微調整で調整する。
論文 参考訳(メタデータ) (2022-10-03T04:15:36Z) - MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining [68.05105411320842]
本稿では,従来のエンコーダ・デコーダ認識フレームワークにおいて,視覚と言語を事前学習するための新しいアプローチであるMaskOCRを提案する。
マスク付き画像モデリング手法を用いて、未ラベルのテキスト画像の集合を用いて特徴エンコーダを事前学習する。
テキストデータを合成されたテキスト画像に変換し、視覚と言語のデータモダリティを統一し、シーケンスデコーダの言語モデリング能力を向上する。
論文 参考訳(メタデータ) (2022-06-01T08:27:19Z) - Residual-guided Personalized Speech Synthesis based on Face Image [14.690030837311376]
先行研究は、自身の音声音声からなる大規模なデータセット上でモデルをトレーニングすることで、パーソナライズされた音声特徴を導出する。
本研究では,人間の顔からパーソナライズされた音声特徴を革新的に抽出し,ニューラルボコーダを用いてパーソナライズされた音声を合成する。
論文 参考訳(メタデータ) (2022-04-01T15:27:14Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - Text-Free Image-to-Speech Synthesis Using Learned Segmental Units [24.657722909094662]
画像の自然な音声キャプションを直接流用する最初のモデルを提案する。
我々は、画像キャプションモジュールと音声合成モジュールを、独立したサブワード音声ユニットのセットで接続する。
Flickr8k音声キャプションデータセットと、人気のMSCOCOデータセットのために収集された音声キャプションの新しいコーパスについて実験を行います。
論文 参考訳(メタデータ) (2020-12-31T05:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。