論文の概要: Taming Visually Guided Sound Generation
- arxiv url: http://arxiv.org/abs/2110.08791v1
- Date: Sun, 17 Oct 2021 11:14:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 12:35:09.488417
- Title: Taming Visually Guided Sound Generation
- Title(参考訳): 視覚誘導音の生成
- Authors: Vladimir Iashin and Esa Rahtu
- Abstract要約: 近年の視覚誘発音声生成の進歩は,短音,低忠実音,一級音のサンプリングに基づいている。
本稿では,オープンドメインビデオから一組のフレームで誘導される高忠実度音を,単一のGPUで再生するよりも少ない時間で生成できる単一モデルを提案する。
- 参考スコア(独自算出の注目度): 21.397106355171946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in visually-induced audio generation are based on sampling
short, low-fidelity, and one-class sounds. Moreover, sampling 1 second of audio
from the state-of-the-art model takes minutes on a high-end GPU. In this work,
we propose a single model capable of generating visually relevant,
high-fidelity sounds prompted with a set of frames from open-domain videos in
less time than it takes to play it on a single GPU.
We train a transformer to sample a new spectrogram from the pre-trained
spectrogram codebook given the set of video features. The codebook is obtained
using a variant of VQGAN trained to produce a compact sampling space with a
novel spectrogram-based perceptual loss. The generated spectrogram is
transformed into a waveform using a window-based GAN that significantly speeds
up generation. Considering the lack of metrics for automatic evaluation of
generated spectrograms, we also build a family of metrics called FID and MKL.
These metrics are based on a novel sound classifier, called Melception, and
designed to evaluate the fidelity and relevance of open-domain samples.
Both qualitative and quantitative studies are conducted on small- and
large-scale datasets to evaluate the fidelity and relevance of generated
samples. We also compare our model to the state-of-the-art and observe a
substantial improvement in quality, size, and computation time. Code, demo, and
samples: v-iashin.github.io/SpecVQGAN
- Abstract(参考訳): 視覚誘発音声生成の最近の進歩は、短音、低音、単音のサンプリングに基づいている。
さらに、最先端モデルから1秒のオーディオをサンプリングするには、ハイエンドGPUで数分かかる。
本研究では,オープンドメインビデオのフレームセットを1つのGPUで再生するよりも少ない時間で,視覚的に関連性の高い高忠実度音を生成することのできる単一モデルを提案する。
ビデオ機能セットを前提に,事前学習済みのスペクトログラムコードブックから新しいスペクトログラムをサンプリングするためにトランスフォーマーをトレーニングする。
このコードブックは、新しいスペクトログラムに基づく知覚損失を持つコンパクトなサンプリング空間を生成するために訓練されたVQGANの変種を用いて得られる。
生成されたスペクトログラムは、生成を著しく高速化するウィンドウベースのGANを用いて波形に変換する。
生成したスペクトログラムの自動評価のためのメトリクスが欠如していることを考えると、FIDとMKLと呼ばれるメトリクスのファミリも構築する。
これらの指標はメルセプションと呼ばれる新しい音響分類器に基づいており、オープンドメインサンプルの忠実度と妥当性を評価するように設計されている。
小規模および大規模データセットを用いて定性的および定量的研究を行い、生成したサンプルの忠実度と妥当性を評価する。
また,本モデルと最先端のモデルを比較し,品質,サイズ,計算時間の大幅な改善を観察した。
コード、デモ、サンプル: v-iashin.github.io/SpecVQGAN
関連論文リスト
- Machine Learning Framework for Audio-Based Content Evaluation using MFCC, Chroma, Spectral Contrast, and Temporal Feature Engineering [0.0]
そこで本研究では,YouTube上の音楽カバーの音声サンプルと,オリジナル曲の音声とユーザコメントからの感情スコアを含むデータセットを構築した。
我々のアプローチは、広範囲な事前処理、音声信号を30秒のウィンドウに分割し、高次元の特徴表現を抽出することである。
回帰モデルを用いて感情スコアを0-100スケールで予測し,それぞれ3.420,5.482,2.783,4.212の根平均二乗誤差(RMSE)値を達成する。
論文 参考訳(メタデータ) (2024-10-31T20:26:26Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and
Music Synthesis [0.0]
本稿では,HiFi-GANに基づくニューラルボコーダSpecDiff-GANを紹介する。
いくつかのデータセットに対して,提案モデルによる音声合成と音楽合成の利点を示す。
論文 参考訳(メタデータ) (2024-01-30T09:17:57Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Fast Non-Rigid Radiance Fields from Monocularized Data [66.74229489512683]
本稿では,不規則に変形するシーンを360度内向きに合成する新しい手法を提案する。
提案手法のコアとなるのは, 空間情報と時間情報の処理を分離し, 訓練と推論を高速化する効率的な変形モジュール, 2) 高速ハッシュ符号化ニューラルラジオアンスフィールドとしての標準シーンを表す静的モジュールである。
どちらの場合も,本手法は従来の手法よりもはるかに高速で,7分未満で収束し,1K解像度でリアルタイムのフレームレートを実現するとともに,生成した新規なビューに対して高い視覚的精度が得られる。
論文 参考訳(メタデータ) (2022-12-02T18:51:10Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - RAVE: A variational autoencoder for fast and high-quality neural audio
synthesis [2.28438857884398]
本稿では,高速かつ高品質な音声波形合成が可能なリアルタイムオーディオ変分自動エンコーダ(RAVE)を提案する。
我々のモデルは48kHzのオーディオ信号を生成できる最初のモデルであり、同時に標準のラップトップCPU上で20倍高速に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T09:07:30Z) - WaveGrad: Estimating Gradients for Waveform Generation [55.405580817560754]
WaveGradは、データ密度の勾配を推定する波形生成の条件モデルである。
ガウスのホワイトノイズ信号から始まり、メル・スペクトログラムに条件付けされた勾配に基づくサンプリング器を通じて繰り返し信号の精製を行う。
6回の反復で高忠実度音声サンプルを生成できることが判明した。
論文 参考訳(メタデータ) (2020-09-02T17:44:10Z) - NAViDAd: A No-Reference Audio-Visual Quality Metric Based on a Deep
Autoencoder [0.0]
ディープオートエンコーダ(NAViDAd)に基づく非参照音声品質指標を提案する。
このモデルは、ディープオートエンコーダ層と分類層を含む2層フレームワークによって構成される。
このモデルは、UnB-AVとLiveNetflix-IIデータベースでテストするとうまく動作した。
論文 参考訳(メタデータ) (2020-01-30T15:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。