論文の概要: FlowMAC: Conditional Flow Matching for Audio Coding at Low Bit Rates
- arxiv url: http://arxiv.org/abs/2409.17635v1
- Date: Thu, 26 Sep 2024 08:32:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 21:53:57.463789
- Title: FlowMAC: Conditional Flow Matching for Audio Coding at Low Bit Rates
- Title(参考訳): FlowMAC:低ビットレート音声符号化のための条件付きフローマッチング
- Authors: Nicola Pia and Martin Strauss and Markus Multrus and Bernd Edler
- Abstract要約: FlowMACは、条件付きフローマッチング(CFM)に基づく低ビットレートでの高品質汎用オーディオ圧縮のための新しいニューラルオーディオである
FlowMACは、最先端のGANベースとDDPMベースのニューラルオーディオコーデックを2倍のビットレートで実現している。
- 参考スコア(独自算出の注目度): 10.14555083237668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces FlowMAC, a novel neural audio codec for high-quality
general audio compression at low bit rates based on conditional flow matching
(CFM). FlowMAC jointly learns a mel spectrogram encoder, quantizer and decoder.
At inference time the decoder integrates a continuous normalizing flow via an
ODE solver to generate a high-quality mel spectrogram. This is the first time
that a CFM-based approach is applied to general audio coding, enabling a
scalable, simple and memory efficient training. Our subjective evaluations show
that FlowMAC at 3 kbps achieves similar quality as state-of-the-art GAN-based
and DDPM-based neural audio codecs at double the bit rate. Moreover, FlowMAC
offers a tunable inference pipeline, which permits to trade off complexity and
quality. This enables real-time coding on CPU, while maintaining high
perceptual quality.
- Abstract(参考訳): 本稿では、条件付きフローマッチング(CFM)に基づいて、低ビットレートで高品質な汎用音声圧縮のための新しいニューラルオーディオコーデックであるFlowMACを紹介する。
FlowMACはメルスペクトログラムエンコーダ、量子化器、デコーダを共同で学習する。
推論時に、デコーダはODEソルバを介して連続正規化フローを統合し、高品質のメルスペクトログラムを生成する。
CFMベースのアプローチが一般的なオーディオコーディングに適用されたのはこれが初めてで、スケーラブルでシンプルでメモリ効率のよいトレーニングを可能にする。
主観評価の結果,3kbpsのFlowMACは,最先端のGANベースとDDPMベースのニューラルオーディオコーデックの2倍の画質を実現していることがわかった。
さらに、FlowMACは変更可能な推論パイプラインを提供しており、複雑さと品質をトレードオフすることができる。
これにより、高い知覚品質を維持しながら、CPU上のリアルタイムコーディングが可能になる。
関連論文リスト
- A Quantum Approximate Optimization Algorithm-based Decoder Architecture for NextG Wireless Channel Codes [6.52154420965995]
FEC(Forward Error Correction)は、ノイズや干渉があるにもかかわらず、無線ネットワークにおける信頼性の高いデータフローを提供する。
FEC処理は、その計算力に富んだ復号プロセスのために、無線ネットワークのリソースのかなりの部分を必要とする。
我々は、人気のあるNextG無線低密度パリティチェック(LDPC)と極符号を対象とした、QAOAベースのFECデコーダであるFDeQを提案する。
FDeQは、FEC符号ブロック長の低い最先端の古典的復号器と同等のエラー性能で復号化を成功させる。
論文 参考訳(メタデータ) (2024-08-21T15:53:09Z) - Streaming Audio-Visual Speech Recognition with Alignment Regularization [69.30185151873707]
本稿では,ハイブリッド接続型時間分類(CTC)/アテンションニューラルネットワークアーキテクチャに基づくストリーミングAV-ASRシステムを提案する。
提案したAV-ASRモデルは、オフラインおよびオンライン設定でLip Reading Sentences 3データセット上で、WERの2.0%と2.6%を達成する。
論文 参考訳(メタデータ) (2022-11-03T20:20:47Z) - Denoising Diffusion Error Correction Codes [92.10654749898927]
近年、ニューラルデコーダは古典的デコーダ技術に対する優位性を実証している。
最近の最先端のニューラルデコーダは複雑で、多くのレガシデコーダの重要な反復的スキームが欠如している。
本稿では,任意のブロック長の線形符号のソフトデコードにデノナイズ拡散モデルを適用することを提案する。
論文 参考訳(メタデータ) (2022-09-16T11:00:50Z) - Masked Autoencoders that Listen [79.99280830830854]
本稿では,画像ベースMasked Autoencoders(MAE)の音声スペクトログラムからの自己教師型表現学習への簡単な拡張について検討する。
MAEにおけるTransformer encoder-decoderの設計に続いて、Audio-MAEはまず、ハイマスキング比でオーディオスペクトログラムパッチを符号化し、エンコーダ層を介して非マスキングトークンのみを供給します。
次にデコーダは、入力スペクトログラムを再構築するために、マスクトークンでパッドされたエンコードされたコンテキストを再注文し、デコードする。
論文 参考訳(メタデータ) (2022-07-13T17:59:55Z) - Cross-Scale Vector Quantization for Scalable Neural Speech Coding [22.65761249591267]
ビットレートスケーラビリティは、リアルタイム通信においてオーディオコーディングに望ましい機能である。
本稿では,クロススケールな拡張型ベクトル量子化スキーム(CSVQ)を提案する。
このように、ビットストリームの一部しか受信していない場合、粗いレベル信号が再構成され、より多くのビットが利用可能になるにつれて、徐々に品質が向上する。
論文 参考訳(メタデータ) (2022-07-07T03:23:25Z) - Improved decoding of circuit noise and fragile boundaries of tailored
surface codes [61.411482146110984]
高速かつ高精度なデコーダを導入し、幅広い種類の量子誤り訂正符号で使用することができる。
我々のデコーダは、信仰マッチングと信念フィンドと呼ばれ、すべてのノイズ情報を活用し、QECの高精度なデモを解き放つ。
このデコーダは, 標準の正方形曲面符号に対して, 整形曲面符号において, より高いしきい値と低い量子ビットオーバーヘッドをもたらすことがわかった。
論文 参考訳(メタデータ) (2022-03-09T18:48:54Z) - A DNN Based Post-Filter to Enhance the Quality of Coded Speech in MDCT
Domain [16.70806998451696]
本稿では,MDCTドメインで直接動作するマスクベースのポストフィルタを提案する。
実数値マスクは量子化MDCT係数に適用され、比較的軽量な畳み込みエンコーダ・デコーダネットワークから推定される。
提案手法は,最近標準化された低遅延低複素度 (LC3) で16kbpsの最小係数で試される。
論文 参考訳(メタデータ) (2022-01-28T11:08:02Z) - Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with
Non-Autoregressive Hidden Intermediates [59.678108707409606]
我々は、接続性時間分類(CTC)出力に基づいて非自己回帰デコードによりHIを生成する高速MDモデルであるFast-MDを提案し、続いてASRデコーダを提案する。
高速MDは、GPUとCPUの「単純なMDモデル」よりも2倍、4倍高速なデコード速度を実現した。
論文 参考訳(メタデータ) (2021-09-27T05:21:30Z) - A Streamwise GAN Vocoder for Wideband Speech Coding at Very Low Bit Rate [8.312162364318235]
本稿では、1.6kbit/sで符号化されたパラメータから広帯域音声波形を生成することができるGANボコーダを提案する。
提案モデルは,フレーム単位で動作可能なStyleMelGANボコーダの改良版である。
論文 参考訳(メタデータ) (2021-08-09T14:03:07Z) - SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。
SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。
エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文 参考訳(メタデータ) (2021-07-07T15:45:42Z) - Enhancement Of Coded Speech Using a Mask-Based Post-Filter [9.324642081509754]
時間周波数領域におけるマスキングに依存したデータ駆動ポストフィルタを提案する。
完全に接続されたニューラルネットワーク(FCNN)、畳み込みエンコーダデコーダ(CED)ネットワーク、長い短期記憶(LSTM)ネットワークは、時間周波数ビン当たりの実数値マスクを推定するために不必要である。
論文 参考訳(メタデータ) (2020-10-12T09:48:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。