論文の概要: PitchFlower: A flow-based neural audio codec with pitch controllability
- arxiv url: http://arxiv.org/abs/2510.25566v1
- Date: Wed, 29 Oct 2025 14:33:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.705198
- Title: PitchFlower: A flow-based neural audio codec with pitch controllability
- Title(参考訳): PitchFlower:ピッチ制御性を備えたフローベースニューラルオーディオコーデック
- Authors: Diego Torres, Axel Roebel, Nicolas Obin,
- Abstract要約: 我々は、明示的なピッチ制御性を備えたフローベースニューラルオーディオであるPitchFlowerを提案する。
ベクトル量子化ボトルネックはピッチ回復を防止し、フローベースデコーダは高品質なオーディオを生成する。
- 参考スコア(独自算出の注目度): 8.972144370022841
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present PitchFlower, a flow-based neural audio codec with explicit pitch controllability. Our approach enforces disentanglement through a simple perturbation: during training, F0 contours are flattened and randomly shifted, while the true F0 is provided as conditioning. A vector-quantization bottleneck prevents pitch recovery, and a flow-based decoder generates high quality audio. Experiments show that PitchFlower achieves more accurate pitch control than WORLD at much higher audio quality, and outperforms SiFiGAN in controllability while maintaining comparable quality. Beyond pitch, this framework provides a simple and extensible path toward disentangling other speech attributes.
- Abstract(参考訳): 我々は、明示的なピッチ制御性を備えたフローベースニューラルオーディオコーデックであるPitchFlowerを提案する。
トレーニング中、F0の輪郭は平坦化され、ランダムに移動し、真のF0は条件付けとして提供される。
ベクトル量子化ボトルネックはピッチ回復を防止し、フローベースデコーダは高品質なオーディオを生成する。
実験により、PitchFlowerはWORLDよりも高い音質で精度の高いピッチ制御を実現し、SiFiGANを同等の音質を維持しながら制御性に優れていることが示された。
ピッチ以外にも、このフレームワークは、他の音声属性をアンタングル化するためのシンプルで拡張可能なパスを提供する。
関連論文リスト
- GDNSQ: Gradual Differentiable Noise Scale Quantization for Low-bit Neural Networks [0.0]
量子化されたニューラルネットワークはノイズの多いチャネルの連鎖と見なすことができる。
我々は、平均ビット幅が減少するにつれてキャパシティのダイナミクスを追跡し、スムーズで制約のある最適化問題として微調整をキャストすることで、結果の量子化ボトルネックを同定する。
提案手法では,学習可能なビット幅境界,ノイズスケール,クランプを備えた完全微分可能なストレートスルー推定器(STE)を用い,外点ペナルティにより目標ビット幅を強制する。
論文 参考訳(メタデータ) (2025-08-19T17:05:26Z) - BinauralFlow: A Causal and Streamable Approach for High-Quality Binaural Speech Synthesis with Flow Matching Models [62.38713281234756]
バイノーラルレンダリングパイプラインは、モノラルオーディオに基づいて自然な聴覚を模倣するオーディオを合成することを目的としている。
この問題を解決するために多くの方法が提案されているが、レンダリング品質とストリーミング可能な推論に苦慮している。
本稿では,BinauralFlow合成フレームワークという,フローマッチングに基づくストリーミング音声フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-28T20:59:15Z) - FlowDec: A flow-based full-band general audio codec with high perceptual quality [90.05968801459524]
FlowDecは、48kHzでサンプリングされた一般的なオーディオのためのニューラルフルバンドオーディオコーデックである。
音声から一般的な音声へ一般化し、24kbit/sから4kbit/sまで移行する。
論文 参考訳(メタデータ) (2025-03-03T12:49:09Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Enhancement of Pitch Controllability using Timbre-Preserving Pitch
Augmentation in FastPitch [3.858078488714278]
我々はFastPitchの堅牢性を改善するために2つのアルゴリズムを提案する。
まず,自然ピッチ増大のための音節保存型ピッチシフトアルゴリズムを提案する。
実験により,提案アルゴリズムはFastPitchのピッチ制御性を向上することを示した。
論文 参考訳(メタデータ) (2022-04-12T12:48:06Z) - FlowVocoder: A small Footprint Neural Vocoder based Normalizing flow for
Speech Synthesis [2.4975981795360847]
WaveGlowのような非自己回帰型ニューラルボコーダは、音声信号のモデリングに関して、WaveFlowのような自己回帰型ニューラルボコーダよりもはるかに遅れている。
NanoFlowは、非常に小さなパラメータを持つ最先端の自己回帰型神経ボコーダである。
メモリフットプリントが小さく,高忠実度オーディオをリアルタイムに生成できるFlowVocoderを提案する。
論文 参考訳(メタデータ) (2021-09-27T06:52:55Z) - Audio Dequantization for High Fidelity Audio Generation in Flow-based
Neural Vocoder [29.63675159839434]
フローベースのニューラルボコーダは、リアルタイム音声生成タスクにおいて大幅に改善されている。
フローベースニューラルボコーダにおける高忠実度音声生成のための音声復調手法を提案する。
論文 参考訳(メタデータ) (2020-08-16T09:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。