論文の概要: Toward Complex-Valued Neural Networks for Waveform Generation
- arxiv url: http://arxiv.org/abs/2603.11589v1
- Date: Thu, 12 Mar 2026 06:24:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.924926
- Title: Toward Complex-Valued Neural Networks for Waveform Generation
- Title(参考訳): 波形生成のための複素値ニューラルネットワークに向けて
- Authors: Hyung-Seok Oh, Deok-Hyeon Cho, Seung-Bin Kim, Seong-Whan Lee,
- Abstract要約: 我々は、生成器と識別器がネイティブな複素算術を使用する複素数値ニューラルボコーダであるComVoを提案する。
実験により,ComVoは実数値ベースラインよりも高い品質を実現し,ブロック行列方式によりトレーニング時間を25%短縮した。
- 参考スコア(独自算出の注目度): 49.128847336227636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural vocoders have recently advanced waveform generation, yielding natural and expressive audio. Among these approaches, iSTFT-based vocoders have recently gained attention. They predict a complex-valued spectrogram and then synthesize the waveform via iSTFT, thereby avoiding learned upsampling stages that can increase computational cost. However, current approaches use real-valued networks that process the real and imaginary parts independently. This separation limits their ability to capture the inherent structure of complex spectrograms. We present ComVo, a Complex-valued neural Vocoder whose generator and discriminator use native complex arithmetic. This enables an adversarial training framework that provides structured feedback in complex-valued representations. To guide phase transformations in a structured manner, we introduce phase quantization, which discretizes phase values and regularizes the training process. Finally, we propose a block-matrix computation scheme to improve training efficiency by reducing redundant operations. Experiments demonstrate that ComVo achieves higher synthesis quality than comparable real-valued baselines, and that its block-matrix scheme reduces training time by 25%. Audio samples and code are available at https://hs-oh-prml.github.io/ComVo/.
- Abstract(参考訳): ニューラルヴォコーダは近年波形生成が進歩し、自然な音声と表現力を持つ。
これらのアプローチの中で、iSTFTベースのヴォコーダが最近注目を集めている。
彼らは複雑な値のスペクトログラムを予測し、iSTFTを介して波形を合成し、計算コストを増大させる学習されたアップサンプリングステージを避ける。
しかし、現在のアプローチでは、実部と虚部を独立に処理する実数値ネットワークを使用している。
この分離は、複雑な分光器の固有の構造を捉える能力を制限する。
我々は、生成器と識別器がネイティブな複素算術を使用する複素数値ニューラルヴォコーダであるComVoを提案する。
これにより、複雑な値の表現で構造化されたフィードバックを提供する敵のトレーニングフレームワークが実現される。
位相変換を構造化的に導くために,位相値の離散化とトレーニングプロセスの正規化を行う位相量子化を導入する。
最後に,冗長な演算を減らし,学習効率を向上させるブロック行列計算手法を提案する。
実験により、ComVoは実数値ベースラインよりも高い合成品質を実現し、ブロック行列方式はトレーニング時間を25%短縮することが示された。
オーディオサンプルとコードはhttps://hs-oh-prml.github.io/ComVo/で公開されている。
関連論文リスト
- Self-Supervised Learning via Flow-Guided Neural Operator on Time-Series Data [57.85958428020496]
Flow-Guided Neural Operator (FGNO)は、演算子学習とフローマッチングを組み合わせた新しいフレームワークである。
FGNOは、短時間フーリエ変換を用いて関数空間のマッピングを学習し、異なる時間分解能を統一する。
推論中にノイズのある入力を使用する以前の生成SSL法とは異なり、ノイズのある表現を学習しながら、クリーンな入力を用いて表現抽出を行う。
論文 参考訳(メタデータ) (2026-02-12T18:54:57Z) - Tuning the Frequencies: Robust Training for Sinusoidal Neural Networks [1.5124439914522694]
正弦波ネットワークの容量特性を説明する理論的枠組みを導入する。
入力周波数の整数結合として表される多数の新しい周波数を,その層組成によってどのように生成するかを示す。
提案手法はTUNERと呼ばれ, 正弦波INRトレーニングの安定性と収束性を大幅に改善し, より詳細な再建を行った。
論文 参考訳(メタデータ) (2024-07-30T18:24:46Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - An investigation of the reconstruction capacity of stacked convolutional
autoencoders for log-mel-spectrograms [2.3204178451683264]
音声処理アプリケーションでは、ハイレベルな表現に基づく表現力のある音声の生成は、高い需要を示す。
ニューラルネットワークのような現代のアルゴリズムは、楽器の圧縮に基づく表現型シンセサイザーの開発にインスピレーションを与えている。
本研究では,多種多様な楽器に対する時間周波数音声表現の圧縮のための畳み込み畳み込みオートエンコーダについて検討した。
論文 参考訳(メタデータ) (2023-01-18T17:19:04Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - iSTFTNet: Fast and Lightweight Mel-Spectrogram Vocoder Incorporating
Inverse Short-Time Fourier Transform [38.271530231451834]
メルスペクトルボコーダは、元のスケールのスペクトルの復元、位相再構成、周波数から時間への変換という3つの逆問題を解く必要がある。
典型的な畳み込みメル-スペクトログラムボコーダは、畳み込みニューラルネットワークを用いてこれらの問題を共同で暗黙的に解決する。
我々は,メルスペクトルボコーダの出力側層を,逆ショートタイムフーリエ変換に置き換えるiSTFTNetを提案する。
論文 参考訳(メタデータ) (2022-03-04T16:05:48Z) - TCTN: A 3D-Temporal Convolutional Transformer Network for Spatiotemporal
Predictive Learning [1.952097552284465]
本稿では3次元時間畳み込み変換器 (TCTN) というアルゴリズムを提案する。
提案アルゴリズムは,Transformerの並列機構により,RNNベースの手法に比べて,実装や訓練が容易である。
論文 参考訳(メタデータ) (2021-12-02T10:05:01Z) - Computational optimization of convolutional neural networks using
separated filters architecture [69.73393478582027]
我々は、計算複雑性を低減し、ニューラルネットワーク処理を高速化する畳み込みニューラルネットワーク変換を考える。
畳み込みニューラルネットワーク(CNN)の使用は、計算的に要求が多すぎるにもかかわらず、画像認識の標準的なアプローチである。
論文 参考訳(メタデータ) (2020-02-18T17:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。