論文の概要: VIFS: An End-to-End Variational Inference for Foley Sound Synthesis
- arxiv url: http://arxiv.org/abs/2306.05004v1
- Date: Thu, 8 Jun 2023 07:48:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 15:45:19.786198
- Title: VIFS: An End-to-End Variational Inference for Foley Sound Synthesis
- Title(参考訳): VIFS:フォリー音声合成のための終端から終端の変分推論
- Authors: Junhyeok Lee, Hyeonuk Nam, Yong-Hwa Park
- Abstract要約: 「カテゴリ」は1つの指標で表され、対応する「音」は多種多様な音の例をカバーしている。
そこで本研究では,高品質な音を生み出すエンドツーエンドのフォリー音声合成のための変分推論であるVIFSを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of DCASE 2023 Challenge Task 7 is to generate various sound clips
for Foley sound synthesis (FSS) by "category-to-sound" approach. "Category" is
expressed by a single index while corresponding "sound" covers diverse and
different sound examples. To generate diverse sounds for a given category, we
adopt VITS, a text-to-speech (TTS) model with variational inference. In
addition, we apply various techniques from speech synthesis including PhaseAug
and Avocodo. Different from TTS models which generate short pronunciation from
phonemes and speaker identity, the category-to-sound problem requires
generating diverse sounds just from a category index. To compensate for the
difference while maintaining consistency within each audio clip, we heavily
modified the prior encoder to enhance consistency with posterior latent
variables. This introduced additional Gaussian on the prior encoder which
promotes variance within the category. With these modifications, we propose
VIFS, variational inference for end-to-end Foley sound synthesis, which
generates diverse high-quality sounds.
- Abstract(参考訳): DCASE 2023 Challenge Task 7の目標は、Foleyサウンド合成(FSS)のための様々なサウンドクリップを「カテゴリ・トゥ・サウンド」アプローチで生成することである。
カテゴリー」は単一のインデックスで表現され、対応する「サウンド」は様々な音の例をカバーしている。
与えられたカテゴリに対して多様な音を生成するために、変分推論付きテキスト音声(TTS)モデルであるVITSを採用する。
さらに,phaseaug や avocodo など,音声合成の様々な手法を適用する。
音素と話者識別から短い発音を生成するTSモデルとは異なり、カテゴリー間問題はカテゴリインデックスのみから多様な音を生成する必要がある。
各オーディオクリップ内の整合性を維持しながら差分を補償するため,後続潜伏変数との整合性を高めるために,先行エンコーダを改良した。
これにより、圏内の分散を促進する前のエンコーダにガウスが加わった。
これらの修正により,多種多様な高品質音を生成するエンドツーエンドのフォリー音声合成のための変分推論であるVIFSを提案する。
関連論文リスト
- AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - C3LLM: Conditional Multimodal Content Generation Using Large Language Models [66.11184017840688]
C3LLMは,ビデオ・トゥ・オーディオ,音声・テキスト,テキスト・トゥ・オーディオの3つのタスクを組み合わせた新しいフレームワークである。
C3LLMはLarge Language Model (LLM) 構造を異なるモダリティを整列するためのブリッジとして適合させる。
本手法は,従来の音声理解,ビデオ音声生成,テキスト音声生成のタスクを1つの統一モデルに統合する。
論文 参考訳(メタデータ) (2024-05-25T09:10:12Z) - SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and
Music Synthesis [0.0]
本稿では,HiFi-GANに基づくニューラルボコーダSpecDiff-GANを紹介する。
いくつかのデータセットに対して,提案モデルによる音声合成と音楽合成の利点を示す。
論文 参考訳(メタデータ) (2024-01-30T09:17:57Z) - QDFormer: Towards Robust Audiovisual Segmentation in Complex Environments with Quantization-based Semantic Decomposition [47.103732403296654]
マルチソース意味空間は、単一ソース部分空間のカルテシアン積として表すことができる。
安定なグローバルな(クリップレベルの)特徴から,局所的な(フレームレベルの)特徴に知識を蒸留する,グローバルから局所的な量子化機構を導入する。
意味的に分解された音声表現がAVSの性能を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-09-29T20:48:44Z) - Text-Driven Foley Sound Generation With Latent Diffusion Model [33.4636070590045]
Foley Sound Generationは、マルチメディアコンテンツのための背景音を合成することを目的としている。
テキスト条件によるフォリー音声生成のための拡散モデルに基づくシステムを提案する。
論文 参考訳(メタデータ) (2023-06-17T14:16:24Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - Efficient Audio Captioning Transformer with Patchout and Text Guidance [74.59739661383726]
本稿では, [1] で提案した Patchout を利用したフルトランスフォーマーアーキテクチャを提案する。
キャプション生成は、事前訓練された分類モデルにより抽出されたテキストオーディオセットタグに部分的に条件付けされる。
提案手法は,DCASE Challenge 2022のタスク6Aで審査員賞を受賞している。
論文 参考訳(メタデータ) (2023-04-06T07:58:27Z) - A Survey on Audio Diffusion Models: Text To Speech Synthesis and
Enhancement in Generative AI [64.71397830291838]
生成AIは様々な分野で印象的な性能を示しており、音声合成は興味深い方向である。
拡散モデルを最も一般的な生成モデルとし、テキストから音声への拡張と音声への拡張という2つのアクティブなタスクを試みている。
本研究は,既存の調査を補完する音声拡散モデルに関する調査を行う。
論文 参考訳(メタデータ) (2023-03-23T15:17:15Z) - Taming Diffusion Models for Audio-Driven Co-Speech Gesture Generation [41.292644854306594]
DiffGesture (DiffGesture) という,拡散に基づく新しいフレームワークを提案する。
DiffGestureは、より優れたモードカバレッジとより強力なオーディオ相関を備えたコヒーレントなジェスチャーをレンダリングする、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-16T07:32:31Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。