論文の概要: Audio Input Generates Continuous Frames to Synthesize Facial Video Using
Generative Adiversarial Networks
- arxiv url: http://arxiv.org/abs/2207.08813v1
- Date: Mon, 18 Jul 2022 03:25:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 13:37:45.244048
- Title: Audio Input Generates Continuous Frames to Synthesize Facial Video Using
Generative Adiversarial Networks
- Title(参考訳): 音声入力が連続フレームを生成する : 生成的アディバーサリーネットワークを用いた顔映像合成
- Authors: Hanhaodi Zhang
- Abstract要約: 本稿では,音声入力を条件としたGAN(Generative Adversarial Networks)を提案し,GRU(Convolutional Gate Recurrent Unit)をジェネレータおよび識別器に使用する。
トレーニングのために、音声をカットし、対応するフレームの顔を取り出す。我々は、単純なエンコーダを設計し、生成したフレームをGANとGRUなしで比較した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a simple method for speech videos generation based on
audio: given a piece of audio, we can generate a video of the target face
speaking this audio. We propose Generative Adversarial Networks (GAN) with cut
speech audio input as condition and use Convolutional Gate Recurrent Unit (GRU)
in generator and discriminator. Our model is trained by exploiting the short
audio and the frames in this duration. For training, we cut the audio and
extract the face in the corresponding frames. We designed a simple encoder and
compare the generated frames using GAN with and without GRU. We use GRU for
temporally coherent frames and the results show that short audio can produce
relatively realistic output results.
- Abstract(参考訳): 本稿では,音声に基づく音声映像生成のための簡易な手法を提案する。
本稿では,音声入力を条件としたGAN(Generative Adversarial Networks)を提案し,GRU(Convolutional Gate Recurrent Unit)をジェネレータおよび識別器に使用する。
我々のモデルは、この期間に短い音声とフレームを利用して訓練される。
トレーニングでは、音声をカットして、対応するフレームから顔を抽出する。
我々は単純なエンコーダを設計し、生成したフレームをGANとGRUなしで比較した。
時間的コヒーレントなフレームにGRUを用い、その結果、短いオーディオが比較的現実的な出力結果をもたらすことを示す。
関連論文リスト
- RT-LA-VocE: Real-Time Low-SNR Audio-Visual Speech Enhancement [36.10772098876638]
LA-VocEのすべてのコンポーネントを再設計して40msの入力フレームで因果的リアルタイム推論を行うRT-LA-VocEを提案する。
提案アルゴリズムは,すべてのリアルタイムシナリオにおいて,最先端の処理結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-10T16:49:23Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment [22.912401512161132]
我々は、各モデルコンポーネントの学習手順をスケジューリングして、オーディオ・視覚的モダリティを関連付けるモデルの設計を行う。
入力音声を視覚的特徴に変換し,事前学習した生成器を用いて画像を生成する。
VEGAS と VGGSound のデータセットは,従来の手法よりもかなりよい結果が得られる。
論文 参考訳(メタデータ) (2023-03-30T16:01:50Z) - Sounding Video Generator: A Unified Framework for Text-guided Sounding
Video Generation [24.403772976932487]
Sounding Video Generator (SVG) は、オーディオ信号とともにリアルな映像を生成するための統合されたフレームワークである。
VQGANは、視覚フレームとオーディオメロメログラムを離散トークンに変換する。
トランスフォーマーベースのデコーダは、テキスト、ビジュアルフレーム、オーディオ信号間の関連をモデル化するために使用される。
論文 参考訳(メタデータ) (2023-03-29T09:07:31Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - VarietySound: Timbre-Controllable Video to Sound Generation via
Unsupervised Information Disentanglement [68.42632589736881]
ビデオ入力と参照音声サンプルを与えられた特定の音色で発音する作業を行う。
この課題を解決するために,対象の音声を時間情報,音響情報,背景情報という3つの構成要素にまとめる。
提案手法は,ビデオ中のイベントと高音質の音声サンプルを生成し,参照音声と高音質の類似性を示す。
論文 参考訳(メタデータ) (2022-11-19T11:12:01Z) - Audio Captioning Transformer [44.68751180694813]
音声キャプションは、音声クリップの自然言語記述を自動的に生成することを目的としている。
ほとんどのキャプションモデルはエンコーダ-デコーダアーキテクチャに従っており、デコーダはエンコーダによって抽出された音声特徴に基づいて単語を予測する。
本稿では,エンコーダデコーダアーキテクチャに基づくフルトランスフォーマネットワークであるAudio Captioning Transformer (ACT)を提案する。
論文 参考訳(メタデータ) (2021-07-21T00:31:50Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。