論文の概要: DDSP: Differentiable Digital Signal Processing
- arxiv url: http://arxiv.org/abs/2001.04643v1
- Date: Tue, 14 Jan 2020 06:49:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 12:33:59.971030
- Title: DDSP: Differentiable Digital Signal Processing
- Title(参考訳): DDSP: 微分可能なデジタル信号処理
- Authors: Jesse Engel, Lamtharn Hantrakul, Chenjie Gu, Adam Roberts
- Abstract要約: 本稿では,従来の信号処理要素を深層学習手法と直接統合できるDDSPライブラリについて紹介する。
我々は、大規模な自己回帰モデルや敵の損失を必要とせずに、高忠実度生成を実現する。
Pは、ディープラーニングの利点を犠牲にすることなく、生成モデリングに対する解釈可能でモジュラーなアプローチを可能にします。
- 参考スコア(独自算出の注目度): 13.448630251745163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most generative models of audio directly generate samples in one of two
domains: time or frequency. While sufficient to express any signal, these
representations are inefficient, as they do not utilize existing knowledge of
how sound is generated and perceived. A third approach (vocoders/synthesizers)
successfully incorporates strong domain knowledge of signal processing and
perception, but has been less actively researched due to limited expressivity
and difficulty integrating with modern auto-differentiation-based machine
learning methods. In this paper, we introduce the Differentiable Digital Signal
Processing (DDSP) library, which enables direct integration of classic signal
processing elements with deep learning methods. Focusing on audio synthesis, we
achieve high-fidelity generation without the need for large autoregressive
models or adversarial losses, demonstrating that DDSP enables utilizing strong
inductive biases without losing the expressive power of neural networks.
Further, we show that combining interpretable modules permits manipulation of
each separate model component, with applications such as independent control of
pitch and loudness, realistic extrapolation to pitches not seen during
training, blind dereverberation of room acoustics, transfer of extracted room
acoustics to new environments, and transformation of timbre between disparate
sources. In short, DDSP enables an interpretable and modular approach to
generative modeling, without sacrificing the benefits of deep learning. The
library is publicly available at https://github.com/magenta/ddsp and we welcome
further contributions from the community and domain experts.
- Abstract(参考訳): ほとんどの音声生成モデルは、時間または周波数の2つの領域の1つで直接サンプルを生成する。
どんな信号でも表現できるが、これらの表現は、音の発生や知覚に関する既存の知識を生かしていないため、非効率である。
第3のアプローチ(vocoders/synthesizers)は、信号処理と知覚に関する強力なドメイン知識をうまく組み込むが、表現力の制限と現代の自動微分に基づく機械学習手法との統合の難しさにより、あまり研究されていない。
本稿では,従来の信号処理要素と深層学習手法との直接統合を可能にする微分可能デジタル信号処理(ddsp)ライブラリを提案する。
音声合成に着目し,大規模な自己回帰モデルや敵対的損失を伴わずに高忠実度生成を実現し,DDSPがニューラルネットワークの表現力を失うことなく強い帰納バイアスを活用できることを実証した。
さらに,解釈可能なモジュールを組み合わせることで,各モデルコンポーネントの操作が可能となり,ピッチとラウドネスの独立制御,トレーニング中に見えないピッチの現実的な外挿,室内音響のブラインド残響,抽出された室内音響の新たな環境への移動,音色の変化などが可能になることを示した。
つまりDDSPは、ディープラーニングの利点を犠牲にすることなく、解釈可能でモジュラーな生成モデリングのアプローチを可能にする。
このライブラリはhttps://github.com/magenta/ddspで公開されている。
関連論文リスト
- Latent Diffusion Model-Enabled Real-Time Semantic Communication Considering Semantic Ambiguities and Channel Noises [18.539501941328393]
本稿では, 遅延拡散モデル対応SemComシステムを構築し, 既存システムと比較して3つの改良点を提案する。
軽量な単層遅延空間変換アダプタは、送信機でのワンショット学習を完了させる。
終端整合蒸留法を用いて, 潜時空間で訓練した拡散模型を蒸留する。
論文 参考訳(メタデータ) (2024-06-09T23:39:31Z) - Adv-KD: Adversarial Knowledge Distillation for Faster Diffusion Sampling [2.91204440475204]
拡散確率モデル(DPM)は、深層生成モデルの強力なクラスとして登場した。
それらは、サンプル生成中にシーケンシャルなデノイングステップに依存している。
モデルアーキテクチャに直接位相を分解する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-31T08:19:44Z) - Brain-Driven Representation Learning Based on Diffusion Model [25.375490061512]
本研究では,拡散確率モデル(DDPM)について検討した。
条件付きオートエンコーダとDDPMを併用することで、我々の新しいアプローチは従来の機械学習アルゴリズムよりもかなり優れています。
本研究は,音声関連脳波信号解析のための高度な計算手法として,DDPMの可能性を強調した。
論文 参考訳(メタデータ) (2023-11-14T05:59:58Z) - Deep Feature Learning for Wireless Spectrum Data [0.5809784853115825]
本稿では,無線通信クラスタリングのための特徴表現を教師なしで学習する手法を提案する。
自動表現学習は,無線伝送バーストの形状を含む微細なクラスタを抽出できることを示す。
論文 参考訳(メタデータ) (2023-08-07T12:27:19Z) - On Neural Architectures for Deep Learning-based Source Separation of
Co-Channel OFDM Signals [104.11663769306566]
周波数分割多重化(OFDM)信号を含む単一チャネル音源分離問題について検討する。
我々はOFDM構造からの洞察に基づいて、ネットワークパラメータ化に対する重要なドメインインフォームド修正を提案する。
論文 参考訳(メタデータ) (2023-03-11T16:29:13Z) - Decision Forest Based EMG Signal Classification with Low Volume Dataset
Augmented with Random Variance Gaussian Noise [51.76329821186873]
我々は6種類の手振りを限定的なサンプル数で分類できるモデルを作成し、より広い聴衆によく一般化する。
信号のランダムなバウンドの使用など、より基本的な手法のセットにアピールするが、これらの手法がオンライン環境で持てる力を示したいと考えている。
論文 参考訳(メタデータ) (2022-06-29T23:22:18Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Learning Signal-Agnostic Manifolds of Neural Fields [50.066449953522685]
ニューラルネットワークを利用して、画像、形状、オーディオ、およびモーダル・オーディオヴィジュアル領域の基盤となる構造を捉える。
GEMの基底多様体を横切ることで、信号領域に新しいサンプルを生成できることが示される。
論文 参考訳(メタデータ) (2021-11-11T18:57:40Z) - Self-supervised Audiovisual Representation Learning for Remote Sensing Data [96.23611272637943]
遠隔センシングにおける深層ニューラルネットワークの事前学習のための自己教師型アプローチを提案する。
ジオタグ付きオーディオ記録とリモートセンシングの対応を利用して、これは完全にラベルなしの方法で行われる。
提案手法は,既存のリモートセンシング画像の事前学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-02T07:50:50Z) - Incremental Training of a Recurrent Neural Network Exploiting a
Multi-Scale Dynamic Memory [79.42778415729475]
本稿では,マルチスケール学習を対象とする,漸進的に訓練された再帰的アーキテクチャを提案する。
隠れた状態を異なるモジュールに分割することで、シンプルなRNNのアーキテクチャを拡張する方法を示す。
新しいモジュールがモデルに反復的に追加され、徐々に長い依存関係を学習するトレーニングアルゴリズムについて議論する。
論文 参考訳(メタデータ) (2020-06-29T08:35:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。