論文の概要: Audio representations for deep learning in sound synthesis: A review
- arxiv url: http://arxiv.org/abs/2201.02490v1
- Date: Fri, 7 Jan 2022 15:08:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-10 15:32:24.091857
- Title: Audio representations for deep learning in sound synthesis: A review
- Title(参考訳): 音声合成における深層学習のための音声表現 : レビュー
- Authors: Anastasia Natsiou and Sean O'Leary
- Abstract要約: 本稿では,ディープラーニングを用いた音声合成に応用した音声表現の概要について述べる。
また、深層学習モデルを用いた音声合成アーキテクチャの開発と評価のための最も重要な手法も提示する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of deep learning algorithms has led many researchers to withdraw
from using classic signal processing methods for sound generation. Deep
learning models have achieved expressive voice synthesis, realistic sound
textures, and musical notes from virtual instruments. However, the most
suitable deep learning architecture is still under investigation. The choice of
architecture is tightly coupled to the audio representations. A sound's
original waveform can be too dense and rich for deep learning models to deal
with efficiently - and complexity increases training time and computational
cost. Also, it does not represent sound in the manner in which it is perceived.
Therefore, in many cases, the raw audio has been transformed into a compressed
and more meaningful form using upsampling, feature-extraction, or even by
adopting a higher level illustration of the waveform. Furthermore, conditional
on the form chosen, additional conditioning representations, different model
architectures, and numerous metrics for evaluating the reconstructed sound have
been investigated. This paper provides an overview of audio representations
applied to sound synthesis using deep learning. Additionally, it presents the
most significant methods for developing and evaluating a sound synthesis
architecture using deep learning models, always depending on the audio
representation.
- Abstract(参考訳): ディープラーニングアルゴリズムの台頭により、多くの研究者が音生成に古典的な信号処理法を使わないようになった。
深層学習モデルは、表現力のある音声合成、現実的な音のテクスチャ、仮想楽器からの音符を達成している。
しかし、最も適切なディープラーニングアーキテクチャはまだ調査中である。
アーキテクチャの選択は、オーディオ表現と密接に結びついている。
音の原波形は、深層学習モデルが効率的に扱うには密度が高すぎ、リッチになり、複雑さは訓練時間と計算コストを増大させる。
また、知覚される方法では音を表現しない。
したがって、多くの場合、生音声はアップサンプリング、特徴抽出、あるいは波形の高レベルなイラストレーションを採用することで圧縮され、より意味のある形式に変換されている。
さらに, 選択した形態, 追加条件表現, 異なるモデルアーキテクチャ, 再構成音の評価のための多数の指標について検討した。
本稿では,ディープラーニングを用いた音声合成に適用する音声表現について概説する。
さらに、ディープラーニングモデルを用いた音声合成アーキテクチャの開発と評価において、常に音声表現に依存する最も重要な手法を示す。
関連論文リスト
- AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Contrastive Learning from Synthetic Audio Doppelgangers [1.3754952818114714]
合成音声を利用したデータスケールと変換の制限に対する解決策を提案する。
音声合成器のパラメータをランダムに摂動することで、音色、ピッチ、時間的エンベロープの因果的に操作された変化を持つオーディオ・ドッペルグ・アンガー合成正ペアを生成する。
ランダムに生成された合成データへのシフトにもかかわらず,本手法は,標準音声分類ベンチマークにおける実データと競合する強力な表現を生成する。
論文 参考訳(メタデータ) (2024-06-09T21:44:06Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - An investigation of the reconstruction capacity of stacked convolutional
autoencoders for log-mel-spectrograms [2.3204178451683264]
音声処理アプリケーションでは、ハイレベルな表現に基づく表現力のある音声の生成は、高い需要を示す。
ニューラルネットワークのような現代のアルゴリズムは、楽器の圧縮に基づく表現型シンセサイザーの開発にインスピレーションを与えている。
本研究では,多種多様な楽器に対する時間周波数音声表現の圧縮のための畳み込み畳み込みオートエンコーダについて検討した。
論文 参考訳(メタデータ) (2023-01-18T17:19:04Z) - Rigid-Body Sound Synthesis with Differentiable Modal Resonators [6.680437329908454]
本稿では,深層ニューラルネットワークを訓練し,与えられた2次元形状と材料に対するモーダル共振器を生成するための,新しいエンドツーエンドフレームワークを提案する。
合成対象のデータセット上で本手法を実証するが,音声領域の目的を用いてモデルを訓練する。
論文 参考訳(メタデータ) (2022-10-27T10:34:38Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z) - COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio
Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。
組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文 参考訳(メタデータ) (2020-06-15T13:17:18Z) - Deep generative models for musical audio synthesis [0.0]
音響モデリングは、パラメトリック制御の下で音を生成するアルゴリズムを開発するプロセスである。
音声合成のための最近の生成的深層学習システムは、任意の音空間を横切ることができるモデルを学習することができる。
本稿では,音響モデリングの実践を変える深層学習の展開を概観する。
論文 参考訳(メタデータ) (2020-06-10T04:02:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。