論文の概要: Towards Lightweight Controllable Audio Synthesis with Conditional
Implicit Neural Representations
- arxiv url: http://arxiv.org/abs/2111.08462v1
- Date: Sun, 14 Nov 2021 13:36:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-18 08:24:04.114097
- Title: Towards Lightweight Controllable Audio Synthesis with Conditional
Implicit Neural Representations
- Title(参考訳): 条件付き暗黙的表現を用いた軽量制御可能な音声合成に向けて
- Authors: Jan Zuiderveld, Marco Federici, Erik J. Bekkers
- Abstract要約: 入射神経表現(英語: Implicit Neural representations、INR)は、低次元関数を近似するニューラルネットワークである。
本研究では、音声合成のための生成フレームワークの軽量バックボーンとして、CINR(Conditional Implicit Neural Representations)の可能性に光を当てた。
- 参考スコア(独自算出の注目度): 10.484851004093919
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The high temporal resolution of audio and our perceptual sensitivity to small
irregularities in waveforms make synthesizing at high sampling rates a complex
and computationally intensive task, prohibiting real-time, controllable
synthesis within many approaches. In this work we aim to shed light on the
potential of Conditional Implicit Neural Representations (CINRs) as lightweight
backbones in generative frameworks for audio synthesis.
Implicit neural representations (INRs) are neural networks used to
approximate low-dimensional functions, trained to represent a single geometric
object by mapping input coordinates to structural information at input
locations. In contrast with other neural methods for representing geometric
objects, the memory required to parameterize the object is independent of
resolution, and only scales with its complexity. A corollary of this is that
INRs have infinite resolution, as they can be sampled at arbitrary resolutions.
To apply the concept of INRs in the generative domain we frame generative
modelling as learning a distribution of continuous functions. This can be
achieved by introducing conditioning methods to INRs.
Our experiments show that Periodic Conditional INRs (PCINRs) learn faster and
generally produce quantitatively better audio reconstructions than Transposed
Convolutional Neural Networks with equal parameter counts. However, their
performance is very sensitive to activation scaling hyperparameters. When
learning to represent more uniform sets, PCINRs tend to introduce artificial
high-frequency components in reconstructions. We validate this noise can be
minimized by applying standard weight regularization during training or
decreasing the compositional depth of PCINRs, and suggest directions for future
research.
- Abstract(参考訳): 音声の高時間分解能と波形の小さな不規則性に対する知覚感度は、高サンプリングレートでの合成を複雑で計算集約的なタスクとし、多くのアプローチにおいてリアルタイムで制御可能な合成を禁止している。
本研究は、音声合成のための生成フレームワークにおける軽量なバックボーンとして、CINR(Conditional Implicit Neural Representations)の可能性に光を当てることを目的としている。
Inlicit Neural representations (INR) は低次元関数を近似するために使用されるニューラルネットワークであり、入力座標を入力位置の構造情報にマッピングすることで単一の幾何学的対象を表現するように訓練されている。
幾何学的オブジェクトを表現する他のニューラルネットワークとは異なり、オブジェクトをパラメータ化するために必要なメモリは解像度とは独立しており、その複雑さでしかスケールしない。
これは INR が無限分解能を持つからであり、任意の分解能でサンプル化することができる。
生成領域にINRの概念を適用するために、生成モデリングは連続関数の分布を学ぶためのものである。
これはINRに条件付きメソッドを導入することで実現できる。
実験の結果,PCINRはパラメータ数に等しい変換畳み込みニューラルネットワークよりも高速に学習し,定量的に優れた音声再構成を実現することがわかった。
しかし、それらのパフォーマンスはアクティベーションスケーリングハイパーパラメータに非常に敏感である。
より均一な集合を表現することを学ぶとき、PCINRは再構成に人工的な高周波成分を導入する傾向がある。
我々は,PCINRの合成深度を低下させたり,トレーニング中に標準重量正規化を適用することで,このノイズを最小化できることを確認した。
関連論文リスト
- Towards a Sampling Theory for Implicit Neural Representations [0.3222802562733786]
Inlicit Neural representations (INRs) は、コンピュータおよび計算画像における逆問題を解決する強力なツールとして登場した。
一般化された重み減衰正規化方式を用いて, 隠蔽層INRから画像の復元方法を示す。
低幅単層INRにより実現された正確な回復画像を得る確率を実証的に評価し、より現実的な連続領域ファントム画像の超解像回復におけるINRの性能を示す。
論文 参考訳(メタデータ) (2024-05-28T17:53:47Z) - INCODE: Implicit Neural Conditioning with Prior Knowledge Embeddings [4.639495398851869]
Inlicit Neural Representation (INR)は、複雑なデータの連続的かつ滑らかな表現を提供するためにニューラルネットワークを活用することで、信号表現に革命をもたらした。
InCODEは、深い事前知識を用いて、INRにおける正弦波ベースの活性化関数の制御を強化する新しいアプローチである。
提案手法は表現力に優れるだけでなく,音声,画像,3次元形状復元などの複雑な課題に対処する能力も拡張している。
論文 参考訳(メタデータ) (2023-10-28T23:16:49Z) - FFEINR: Flow Feature-Enhanced Implicit Neural Representation for
Spatio-temporal Super-Resolution [4.577685231084759]
本稿では,フローフィールドデータの超高分解能化のための特徴強調型ニューラルインシシット表現(FFEINR)を提案する。
モデル構造とサンプリング分解能の観点から、暗黙のニューラル表現を最大限に活用することができる。
FFEINRのトレーニングプロセスは、入力層に機能拡張を導入することで容易になる。
論文 参考訳(メタデータ) (2023-08-24T02:28:18Z) - Degradation-Noise-Aware Deep Unfolding Transformer for Hyperspectral
Image Denoising [9.119226249676501]
ハイパースペクトル画像(HSI)は、帯域幅が狭いため、ノイズが多いことが多い。
HSIデータキューブのノイズを低減するため、モデル駆動型と学習型の両方の復調アルゴリズムが提案されている。
本稿では,これらの問題に対処するDNA-Net(Degradation-Noise-Aware Unfolding Network)を提案する。
論文 参考訳(メタデータ) (2023-05-06T13:28:20Z) - Modality-Agnostic Variational Compression of Implicit Neural
Representations [96.35492043867104]
Inlicit Neural Representation (INR) としてパラメータ化されたデータの関数的ビューに基づくモーダリティ非依存型ニューラル圧縮アルゴリズムを提案する。
潜時符号化と疎性の間のギャップを埋めて、ソフトゲーティング機構に非直線的にマッピングされたコンパクト潜時表現を得る。
このような潜在表現のデータセットを得た後、ニューラル圧縮を用いてモーダリティ非依存空間におけるレート/歪みトレードオフを直接最適化する。
論文 参考訳(メタデータ) (2023-01-23T15:22:42Z) - Versatile Neural Processes for Learning Implicit Neural Representations [57.090658265140384]
本稿では,近似関数の能力を大幅に向上させるVersatile Neural Processs (VNP)を提案する。
具体的には、より少ない情報的コンテキストトークンを生成するボトルネックエンコーダを導入し、高い計算コストを軽減した。
提案したVNPが1D, 2D, 3D信号を含む様々なタスクに対して有効であることを示す。
論文 参考訳(メタデータ) (2023-01-21T04:08:46Z) - Signal Processing for Implicit Neural Representations [80.38097216996164]
Inlicit Neural Representation (INR)は、マルチ層パーセプトロンを介して連続したマルチメディアデータを符号化する。
既存の作業は、その離散化されたインスタンスの処理を通じて、そのような連続的な表現を操作する。
本稿では,INSP-Netと呼ばれる暗黙的ニューラル信号処理ネットワークを提案する。
論文 参考訳(メタデータ) (2022-10-17T06:29:07Z) - UNeRF: Time and Memory Conscious U-Shaped Network for Training Neural
Radiance Fields [16.826691448973367]
ニューラル・ラジアンス・フィールド(NeRF)は、新しいビュー合成とシーン再構成のための再構築の詳細を増大させる。
しかし、そのようなニューラルネットワークの解像度とモデルフリー性の向上は、高いトレーニング時間と過剰なメモリ要求のコストが伴う。
本研究では,近隣のサンプル点間で評価を部分的に共有することで,NeRFのサンプルベース計算の冗長性を利用する手法を提案する。
論文 参考訳(メタデータ) (2022-06-23T19:57:07Z) - InfoNeRF: Ray Entropy Minimization for Few-Shot Neural Volume Rendering [55.70938412352287]
ニューラルな暗黙表現に基づく数ショットの新規ビュー合成のための情報理論正規化手法を提案する。
提案手法は,不十分な視点で発生する潜在的な復元の不整合を最小化する。
複数の標準ベンチマークにおいて,既存のニューラルビュー合成手法と比較して一貫した性能向上を実現している。
論文 参考訳(メタデータ) (2021-12-31T11:56:01Z) - Meta-Learning Sparse Implicit Neural Representations [69.15490627853629]
入射神経表現は、一般的な信号を表す新しい道である。
現在のアプローチは、多数の信号やデータセットに対してスケールすることが難しい。
メタ学習型スパースニューラル表現は,高密度メタ学習モデルよりもはるかに少ない損失が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T18:02:53Z) - Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。
実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。
ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文 参考訳(メタデータ) (2021-03-15T12:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。