論文の概要: FlowDec: A flow-based full-band general audio codec with high perceptual quality
- arxiv url: http://arxiv.org/abs/2503.01485v1
- Date: Mon, 03 Mar 2025 12:49:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:13:16.579461
- Title: FlowDec: A flow-based full-band general audio codec with high perceptual quality
- Title(参考訳): FlowDec: 知覚品質の高いフローベースフルバンドオーディオコーデック
- Authors: Simon Welker, Matthew Le, Ricky T. Q. Chen, Wei-Ning Hsu, Timo Gerkmann, Alexander Richard, Yi-Chiao Wu,
- Abstract要約: FlowDecは、48kHzでサンプリングされた一般的なオーディオのためのニューラルフルバンドオーディオコーデックである。
音声から一般的な音声へ一般化し、24kbit/sから4kbit/sまで移行する。
- 参考スコア(独自算出の注目度): 90.05968801459524
- License:
- Abstract: We propose FlowDec, a neural full-band audio codec for general audio sampled at 48 kHz that combines non-adversarial codec training with a stochastic postfilter based on a novel conditional flow matching method. Compared to the prior work ScoreDec which is based on score matching, we generalize from speech to general audio and move from 24 kbit/s to as low as 4 kbit/s, while improving output quality and reducing the required postfilter DNN evaluations from 60 to 6 without any fine-tuning or distillation techniques. We provide theoretical insights and geometric intuitions for our approach in comparison to ScoreDec as well as another recent work that uses flow matching, and conduct ablation studies on our proposed components. We show that FlowDec is a competitive alternative to the recent GAN-dominated stream of neural codecs, achieving FAD scores better than those of the established GAN-based codec DAC and listening test scores that are on par, and producing qualitatively more natural reconstructions for speech and harmonic structures in music.
- Abstract(参考訳): ニューラルフルバンドオーディオコーデックであるFlowDecを48kHzでサンプリングし,非対向コーデックトレーニングと確率的ポストフィルタを組み合わせた,新しい条件付きフローマッチング法を提案する。
スコアマッチングに基づく先行研究であるScoreDecと比較して、音声から一般音声へ一般化し、24kbit/sから4kbit/sまでの速度を4kbit/sに抑えるとともに、出力品質を改善し、必要なポストフィルタDNNの評価を60から6に短縮する。
我々は,ScoreDecと比較して理論的な洞察と幾何学的直観を提供し,フローマッチングを用いた最近の研究と,提案したコンポーネントのアブレーション研究を行っている。
FlowDecは、近年のGANが支配するニューラルコーデックのストリームに対抗して、確立されたGANベースのコーデックDACや聴取テストスコアよりも優れたFADスコアを達成し、音楽における音声やハーモニック構造に対する質的に自然な再構築を実現していることを示す。
関連論文リスト
- FlowMAC: Conditional Flow Matching for Audio Coding at Low Bit Rates [10.14555083237668]
FlowMACは、条件付きフローマッチング(CFM)に基づく低ビットレートでの高品質汎用オーディオ圧縮のための新しいニューラルオーディオである
FlowMACは、最先端のGANベースとDDPMベースのニューラルオーディオコーデックを2倍のビットレートで実現している。
論文 参考訳(メタデータ) (2024-09-26T08:32:31Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - A DNN Based Post-Filter to Enhance the Quality of Coded Speech in MDCT
Domain [16.70806998451696]
本稿では,MDCTドメインで直接動作するマスクベースのポストフィルタを提案する。
実数値マスクは量子化MDCT係数に適用され、比較的軽量な畳み込みエンコーダ・デコーダネットワークから推定される。
提案手法は,最近標準化された低遅延低複素度 (LC3) で16kbpsの最小係数で試される。
論文 参考訳(メタデータ) (2022-01-28T11:08:02Z) - SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。
SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。
エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文 参考訳(メタデータ) (2021-07-07T15:45:42Z) - Audio Dequantization for High Fidelity Audio Generation in Flow-based
Neural Vocoder [29.63675159839434]
フローベースのニューラルボコーダは、リアルタイム音声生成タスクにおいて大幅に改善されている。
フローベースニューラルボコーダにおける高忠実度音声生成のための音声復調手法を提案する。
論文 参考訳(メタデータ) (2020-08-16T09:37:18Z) - Efficient Adaptation of Neural Network Filter for Video Compression [10.769305738505071]
本稿では,ニューラルネットワークフィルタのための効率的なファインタニング手法を提案する。
微細チューニングは、エンコーダ側で行われ、ニューラルネットワークが符号化されている特定のコンテンツに適応する。
提案手法は従来のファインタニング手法よりもはるかに高速である。
論文 参考訳(メタデータ) (2020-07-28T14:24:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。