論文の概要: Collaborative Learning to Generate Audio-Video Jointly
- arxiv url: http://arxiv.org/abs/2104.02656v1
- Date: Thu, 1 Apr 2021 01:00:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 21:52:25.265673
- Title: Collaborative Learning to Generate Audio-Video Jointly
- Title(参考訳): 協調学習による音声・映像共同生成
- Authors: Vinod K Kurmi, Vipul Bajaj, Badri N Patro, K S Venkatesh, Vinay P
Namboodiri, Preethi Jyothi
- Abstract要約: そこで本研究では,音声と映像の関連付けにより,映像と音声の自然なサンプルを生成する手法を提案する。
提案手法では,複数の識別器を用いて,実世界のサンプルと音声,ビデオ,共同出力が区別できないことを保証する。
- 参考スコア(独自算出の注目度): 39.193054126350496
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: There have been a number of techniques that have demonstrated the generation
of multimedia data for one modality at a time using GANs, such as the ability
to generate images, videos, and audio. However, so far, the task of multi-modal
generation of data, specifically for audio and videos both, has not been
sufficiently well-explored. Towards this, we propose a method that demonstrates
that we are able to generate naturalistic samples of video and audio data by
the joint correlated generation of audio and video modalities. The proposed
method uses multiple discriminators to ensure that the audio, video, and the
joint output are also indistinguishable from real-world samples. We present a
dataset for this task and show that we are able to generate realistic samples.
This method is validated using various standard metrics such as Inception
Score, Frechet Inception Distance (FID) and through human evaluation.
- Abstract(参考訳): 画像、ビデオ、オーディオを生成する機能など、GANを使用して1つのモードでマルチメディアデータを生成することを実証する技術が数多く存在する。
しかし、これまでのところ、音声とビデオの両方において、マルチモーダルなデータ生成の課題は十分に研究されていない。
そこで本研究では,音声と映像の関連付けにより,映像と音声データの自然なサンプルを生成可能であることを示す手法を提案する。
提案手法では,複数の識別器を用いて,実世界のサンプルと音声,ビデオ,共同出力が区別できないことを保証する。
このタスクのためのデータセットを示し、現実的なサンプルを生成できることを示します。
この方法は、インセプションスコア、Frechet Inception Distance(FID)、人間による評価など、様々な標準指標を用いて検証される。
関連論文リスト
- Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - Audio-Driven Dubbing for User Generated Contents via Style-Aware
Semi-Parametric Synthesis [123.11530365315677]
既存の自動ダビングメソッドは通常、PGC(Professionally Generated Content)の生産用に設計されている。
本稿では,ユーザ生成コンテンツ(UGC)制作においてより有効な音声駆動型ダビング手法について検討する。
論文 参考訳(メタデータ) (2023-08-31T15:41:40Z) - AudioFormer: Audio Transformer learns audio feature representations from
discrete acoustic codes [6.375996974877916]
離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。
以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2023-08-14T15:47:25Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。