論文の概要: A General Framework for Learning Procedural Audio Models of
Environmental Sounds
- arxiv url: http://arxiv.org/abs/2303.02396v1
- Date: Sat, 4 Mar 2023 12:12:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 19:55:58.644517
- Title: A General Framework for Learning Procedural Audio Models of
Environmental Sounds
- Title(参考訳): 環境音の手続き的音響モデル学習のための一般フレームワーク
- Authors: Danzel Serrano and Mark Cartwright
- Abstract要約: 本稿では,手続き型自動エンコーダ(ProVE)フレームワークについて,手続き型オーディオPAモデルを学習するための一般的なアプローチとして紹介する。
本稿では, ProVE モデルが従来の PA モデルと敵対的アプローチの両方を音響忠実度で上回ることを示す。
- 参考スコア(独自算出の注目度): 7.478290484139404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces the Procedural (audio) Variational autoEncoder (ProVE)
framework as a general approach to learning Procedural Audio PA models of
environmental sounds with an improvement to the realism of the synthesis while
maintaining provision of control over the generated sound through adjustable
parameters. The framework comprises two stages: (i) Audio Class Representation,
in which a latent representation space is defined by training an audio
autoencoder, and (ii) Control Mapping, in which a joint function of
static/temporal control variables derived from the audio and a random sample of
uniform noise is learned to replace the audio encoder. We demonstrate the use
of ProVE through the example of footstep sound effects on various surfaces. Our
results show that ProVE models outperform both classical PA models and an
adversarial-based approach in terms of sound fidelity, as measured by Fr\'echet
Audio Distance (FAD), Maximum Mean Discrepancy (MMD), and subjective
evaluations, making them feasible tools for sound design workflows.
- Abstract(参考訳): 本稿では,環境音のプロシージャPAモデルを学習するための一般的なアプローチとしてProVE(Procedural (audio) Variational AutoEncoder)フレームワークを紹介する。
この枠組みは2つの段階からなる。
(i)音声オートエンコーダの訓練により潜在表現空間を定義する音声クラス表現
(ii)オーディオエンコーダを置き換えるために、音声から派生した静的・時間的制御変数と一様ノイズのランダムサンプルとの結合関数を学習する制御マッピング。
各種表面におけるフットステップ音響効果を例に,ProVEの使用例を示した。
以上の結果から,Fr'echet Audio Distance (FAD), Maximum Mean Discrepancy (MMD) および主観的評価により,従来のPAモデルと敵対的アプローチの両面において,音響設計ワークフローのためのツールとして優れていることがわかった。
関連論文リスト
- Audio Enhancement for Computer Audition -- An Iterative Training Paradigm Using Sample Importance [42.90024643696503]
音声強調のためのモデルを協調的に最適化するエンド・ツー・エンドの学習ソリューションを提案する。
トレーニングパラダイムを評価するための4つの代表的なアプリケーションについて検討する。
論文 参考訳(メタデータ) (2024-08-12T16:23:58Z) - Tailored Design of Audio-Visual Speech Recognition Models using Branchformers [0.0]
本稿では,パラメータ効率の高い音声認識システムの設計のための新しいフレームワークを提案する。
より正確に言うと、提案するフレームワークは、まず、音声のみのシステムとビデオのみのシステムを推定し、次に、カスタマイズされたオーディオ視覚統合エンコーダを設計する。
その結果、我々のAVSRシステムがどのように最先端の認識率に到達できるかが反映された。
論文 参考訳(メタデータ) (2024-07-09T07:15:56Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - C3LLM: Conditional Multimodal Content Generation Using Large Language Models [66.11184017840688]
C3LLMは,ビデオ・トゥ・オーディオ,音声・テキスト,テキスト・トゥ・オーディオの3つのタスクを組み合わせた新しいフレームワークである。
C3LLMはLarge Language Model (LLM) 構造を異なるモダリティを整列するためのブリッジとして適合させる。
本手法は,従来の音声理解,ビデオ音声生成,テキスト音声生成のタスクを1つの統一モデルに統合する。
論文 参考訳(メタデータ) (2024-05-25T09:10:12Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Inference and Denoise: Causal Inference-based Neural Speech Enhancement [83.4641575757706]
本研究では、雑音の存在を介入としてモデル化することにより、因果推論パラダイムにおける音声強調(SE)課題に対処する。
提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。
論文 参考訳(メタデータ) (2022-11-02T15:03:50Z) - Joint Speech Recognition and Audio Captioning [37.205642807313545]
室内と屋外の両方で録音された音声サンプルは、しばしば二次音源で汚染される。
自動音声キャプション(AAC)の進展する分野と、徹底的に研究された自動音声認識(ASR)を一体化することを目的としている。
本稿では,ASRタスクとAACタスクのエンドツーエンド共同モデリングのためのいくつかのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-03T04:42:43Z) - CRASH: Raw Audio Score-based Generative Modeling for Controllable
High-resolution Drum Sound Synthesis [0.0]
非条件生音声合成のための新しいスコアベース生成モデルを提案する。
提案手法は,よりフレキシブルな生成機能を提供しながら,生音声におけるGANベースの手法とのギャップを埋める。
論文 参考訳(メタデータ) (2021-06-14T13:48:03Z) - Deep generative models for musical audio synthesis [0.0]
音響モデリングは、パラメトリック制御の下で音を生成するアルゴリズムを開発するプロセスである。
音声合成のための最近の生成的深層学習システムは、任意の音空間を横切ることができるモデルを学習することができる。
本稿では,音響モデリングの実践を変える深層学習の展開を概観する。
論文 参考訳(メタデータ) (2020-06-10T04:02:42Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。