論文の概要: Lip to Speech Synthesis with Visual Context Attentional GAN
- arxiv url: http://arxiv.org/abs/2204.01726v1
- Date: Mon, 4 Apr 2022 06:49:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 12:59:27.613664
- Title: Lip to Speech Synthesis with Visual Context Attentional GAN
- Title(参考訳): Visual Context Attentional GAN を用いたリップ・トゥ・音声合成
- Authors: Minsu Kim, Joanna Hong, Yong Man Ro
- Abstract要約: 視覚的文脈意図型GAN (VCA-GAN) を新たに提案する。
VCA-GANは音声合成中に局所的および大域的な唇運動を共同でモデル化することができる。
- 参考スコア(独自算出の注目度): 32.65865343643458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel lip-to-speech generative adversarial
network, Visual Context Attentional GAN (VCA-GAN), which can jointly model
local and global lip movements during speech synthesis. Specifically, the
proposed VCA-GAN synthesizes the speech from local lip visual features by
finding a mapping function of viseme-to-phoneme, while global visual context is
embedded into the intermediate layers of the generator to clarify the ambiguity
in the mapping induced by homophene. To achieve this, a visual context
attention module is proposed where it encodes global representations from the
local visual features, and provides the desired global visual context
corresponding to the given coarse speech representation to the generator
through audio-visual attention. In addition to the explicit modelling of local
and global visual representations, synchronization learning is introduced as a
form of contrastive learning that guides the generator to synthesize a speech
in sync with the given input lip movements. Extensive experiments demonstrate
that the proposed VCA-GAN outperforms existing state-of-the-art and is able to
effectively synthesize the speech from multi-speaker that has been barely
handled in the previous works.
- Abstract(参考訳): 本稿では,音声合成における局所的・大域的な唇の動きを協調的にモデル化できる,新しい音声合成対向ネットワークであるVCA-GAN(Visual Context Attentional GAN)を提案する。
具体的には、VCA-GANは、音声の局所的な唇の視覚特徴から音声を合成し、グローバルな視覚コンテキストは、ホモフェインによって誘発されるマッピングのあいまいさを明らかにするために、ジェネレータの中間層に埋め込まれる。
これを実現するために、局所的な視覚特徴からグローバルな表現を符号化する視覚コンテキストアテンションモジュールを提案し、音声視覚アテンションを介して、与えられた粗い音声表現に対応する所望のグローバルな視覚コンテキストをジェネレータに提供する。
局所的およびグローバルな視覚表現の明示的なモデリングに加えて、同期学習は、与えられた入力された唇の動きと同期して音声を合成するようにジェネレータに誘導するコントラスト学習の形式として導入された。
広汎な実験により,提案したVCA-GANは既存の最先端技術よりも優れており,従来の研究でほとんど扱われていなかったマルチスピーカから音声を効果的に合成できることが示されている。
関連論文リスト
- Towards Accurate Lip-to-Speech Synthesis in-the-Wild [31.289366690147556]
そこで本研究では,唇の動きのみをベースとしたサイレントビデオから音声を合成する手法を提案する。
リップビデオから直接音声を生成する従来のアプローチは、音声だけで堅牢な言語モデルを学べないという課題に直面している。
我々は,我々のモデルに言語情報を注入する最先端のリップ・トゥ・テキスト・ネットワークを用いて,ノイズの多いテキスト管理を導入することを提案する。
論文 参考訳(メタデータ) (2024-03-02T04:07:24Z) - Representation Learning With Hidden Unit Clustering For Low Resource
Speech Applications [37.89857769906568]
本稿では,隠れ単位クラスタリング(HUC)フレームワークを用いた生音声からの自己教師付き表現学習のアプローチについて述べる。
モデルへの入力は、ウィンドウ化され、1次元畳み込み層で処理されるオーディオサンプルで構成されている。
HUCフレームワークは、表現を少数の音素のような単位に分類することができ、意味的に豊かな表現を学ぶためのモデルを訓練するために使用される。
論文 参考訳(メタデータ) (2023-07-14T13:02:10Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - Cross-Modal Global Interaction and Local Alignment for Audio-Visual
Speech Recognition [21.477900473255264]
音声・視覚音声認識(AVSR)のための多言語間相互作用と局所アライメント(GILA)アプローチを提案する。
具体的には、A-Vの相補関係をモダリティレベルで捉えるためのグローバル相互作用モデルと、フレームレベルでのA-Vの時間的一貫性をモデル化するための局所アライメントアプローチを設計する。
我々のGILAは、公開ベンチマークのLSS3とLSS2で教師付き学習状況よりも優れています。
論文 参考訳(メタデータ) (2023-05-16T06:41:25Z) - VCSE: Time-Domain Visual-Contextual Speaker Extraction Network [54.67547526785552]
本稿では,VCSEという2段階の時間領域視覚コンテキスト話者抽出ネットワークを提案する。
第1段階では、視覚的手がかりで対象音声を事前抽出し、基礎となる音声系列を推定する。
第2段階では、事前抽出されたターゲット音声を自己学習した文脈的手がかりで洗練する。
論文 参考訳(メタデータ) (2022-10-09T12:29:38Z) - VisualTTS: TTS with Accurate Lip-Speech Synchronization for Automatic
Voice Over [68.22776506861872]
AVO(Automatic Voice Over)と呼ばれるサイレント事前録音ビデオと同期して音声を合成する新しいタスクを定式化する。
AVOの自然な解決策は、ビデオ中のリップシーケンスの時間的進行に音声レンダリングを条件付けることである。
そこで本稿では,視覚入力を前提とした新しい音声合成モデルVisualTTSを提案する。
論文 参考訳(メタデータ) (2021-10-07T11:25:25Z) - Exploring Explicit and Implicit Visual Relationships for Image
Captioning [11.82805641934772]
本稿では,画像キャプションのための領域レベルの表現を豊かにするために,明示的かつ暗黙的な視覚関係を探索する。
具体的には、オブジェクトペア上にセマンティックグラフを構築し、ゲートグラフ畳み込みネットワーク(Gated GCN)を利用して、近隣住民の情報を選択的に集約する。
暗黙的に、我々は変圧器から領域ベースの双方向エンコーダ表現を介して検出されたオブジェクト間のグローバルな相互作用を描画する。
論文 参考訳(メタデータ) (2021-05-06T01:47:51Z) - Contrastive Learning of Global and Local Audio-Visual Representations [25.557229705149577]
グローバルな意味情報を必要とするタスクに一般化する音声視覚表現を学習するための多目的自己教師方式を提案する。
提案手法は,アクション・サウンド分類,口唇読解,ディープフェイク検出,音源定位など,下流の様々なシナリオで汎用的な映像表現を学習できることを示す。
論文 参考訳(メタデータ) (2021-04-07T07:35:08Z) - Fine-Grained Grounding for Multimodal Speech Recognition [49.01826387664443]
本稿では,画像の各部分からよりきめ細かい視覚情報を利用するモデルを提案する。
Flickr8K Audio Captions Corpusの実験では、私たちのモデルはグローバルな視覚的特徴を使用するアプローチよりも改善されていることがわかった。
論文 参考訳(メタデータ) (2020-10-05T23:06:24Z) - Correlating Subword Articulation with Lip Shapes for Embedding Aware
Audio-Visual Speech Enhancement [94.0676772764248]
埋め込み認識音声強調(EASE)を改善するための視覚的埋め込み手法を提案する。
視覚のみのEASE(VEASE)のための事前訓練された電話機や調音位置認識器を用いて、まず唇フレームから視覚埋め込みを抽出する。
次に,マルチモーダルEASE(MEASE)における音声・視覚的特徴の相補性を利用して,雑音の多い音声・唇ビデオからの音声・視覚的埋め込みを情報交叉方式で抽出する。
論文 参考訳(メタデータ) (2020-09-21T01:26:19Z) - GINet: Graph Interaction Network for Scene Parsing [58.394591509215005]
画像領域に対する文脈推論を促進するために,グラフインタラクションユニット(GIユニット)とセマンティックコンテキストロス(SC-loss)を提案する。
提案されたGINetは、Pascal-ContextやCOCO Stuffなど、一般的なベンチマークにおける最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2020-09-14T02:52:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。