論文の概要: CodecFlow: Efficient Bandwidth Extension via Conditional Flow Matching in Neural Codec Latent Space
- arxiv url: http://arxiv.org/abs/2603.02022v2
- Date: Tue, 03 Mar 2026 06:49:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 14:54:12.63365
- Title: CodecFlow: Efficient Bandwidth Extension via Conditional Flow Matching in Neural Codec Latent Space
- Title(参考訳): CodecFlow:ニューラルコーデック潜在空間における条件付きフローマッチングによる効率的な帯域拡張
- Authors: Bowen Zhang, Junchuan Zhao, Ian McLoughlin, Ye Wang, A S Madhukumar,
- Abstract要約: 音声帯域拡張は、低帯域音声に対して適切な高周波コンテンツを再生/推論することにより、明瞭さと知性を向上させる。
既存の手法はしばしばスペクトログラムや波形モデリングに依存しており、高い計算コストを発生させ、高周波の忠実度を制限できる。
我々は、コンパクトな潜在空間で効率的な音声再構成を行うニューラルネットワークベースのBWEフレームワークであるCodecFlowを提案する。
- 参考スコア(独自算出の注目度): 13.286622421661313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech Bandwidth Extension improves clarity and intelligibility by restoring/inferring appropriate high-frequency content for low-bandwidth speech. Existing methods often rely on spectrogram or waveform modeling, which can incur higher computational cost and have limited high-frequency fidelity. Neural audio codecs offer compact latent representations that better preserve acoustic detail, yet accurately recovering high-resolution latent information remains challenging due to representation mismatch. We present CodecFlow, a neural codec-based BWE framework that performs efficient speech reconstruction in a compact latent space. CodecFlow employs a voicing-aware conditional flow converter on continuous codec embeddings and a structure-constrained residual vector quantizer to improve latent alignment stability. Optimized end-to-end, CodecFlow achieves strong spectral fidelity and enhanced perceptual quality on 8 kHz to 16 kHz and 44.1 kHz speech BWE tasks.
- Abstract(参考訳): 音声帯域拡張は、低帯域音声に対して適切な高周波コンテンツを再生/推論することにより、明瞭さと知性を向上させる。
既存の手法はしばしばスペクトログラムや波形モデリングに依存しており、高い計算コストを発生させ、高周波の忠実度を制限できる。
ニューラルオーディオコーデックは、音響的詳細をよりよく保存するコンパクトな潜時表現を提供するが、表現ミスマッチのため、高精度な潜時情報を正確に復元することは困難である。
我々は、コンパクトな潜在空間で効率的な音声再構成を行う、ニューラルコーデックベースのBWEフレームワークであるCodecFlowを提案する。
CodecFlowは、連続コーデック埋め込みにVoicing-Aware条件付きフローコンバータと、構造制約された残留ベクトル量子化器を用いて、遅延アライメント安定性を向上させる。
最適化されたエンドツーエンドでは、CodecFlowは、8kHzから16kHz、44.1kHzの音声BWEタスクで強いスペクトル忠実性と知覚品質を向上させる。
関連論文リスト
- Latent-Mark: An Audio Watermark Robust to Neural Resynthesis [62.09761127079914]
Latent-Markはセマンティック圧縮に耐えられるように設計された最初のゼロビットオーディオ透かしフレームワークである。
私たちの重要な洞察は、エンコード-デコードプロセスに対する堅牢性は、不変の潜在空間に透かしを埋め込む必要があるということです。
我々の研究は、ますます複雑で多様な生成歪みをまたいで整合性を維持することができる普遍的な透かしフレームワークに、将来の研究をインスピレーションを与えます。
論文 参考訳(メタデータ) (2026-03-05T15:51:09Z) - U-Codec: Ultra Low Frame-rate Neural Speech Codec for Fast High-fidelity Speech Generation [71.59514998928833]
U-Codecは5Hzの超低フレームレートで高忠実度再構成と高速音声生成を実現する。
U-Codecを大規模言語モデル(LLM)ベースの自動回帰TSモデルに適用する。
論文 参考訳(メタデータ) (2025-10-19T05:09:20Z) - FocalCodec-Stream: Streaming Low-Bitrate Speech Coding via Causal Distillation [27.32235541083431]
FocalCodec-Streamは、音声を1つのバイナリコードブックに0.55から0.80kbpsで圧縮し、理論的な遅延は80msである。
実験によると、FocalCodec-Streamは既存のストリーム可能なコーデックを同等の性能で上回っている。
論文 参考訳(メタデータ) (2025-09-19T17:57:13Z) - CoDiCodec: Unifying Continuous and Discrete Compressed Representations of Audio [7.093237513313511]
CoDiCodecは、要約埋め込みを通じてグローバル機能を効率的に符号化することで、制限を克服する新しいオーディオオートエンコーダである。
11Hzで圧縮された連続埋め込みと、同じ訓練されたモデルから2.38kbpsの速度で離散トークンを生成する。
我々の研究は、連続的な生成的モデリングパラダイムと離散的なモデリングパラダイムのギャップを埋め、オーディオ圧縮に対する統一的なアプローチを可能にする。
論文 参考訳(メタデータ) (2025-09-11T20:31:18Z) - SecoustiCodec: Cross-Modal Aligned Streaming Single-Codecbook Speech Codec [83.61175662066364]
音声コーデックは、音声とテキスト言語モデルを統一するための重要なブリッジとして機能する。
既存の手法はセマンティックエンコーディングにおいていくつかの課題に直面している。
本稿では,クロスモーダルな低ビットレートストリーミング音声コーデックSecoustiCodecを提案する。
論文 参考訳(メタデータ) (2025-08-04T19:22:14Z) - HH-Codec: High Compression High-fidelity Discrete Neural Codec for Spoken Language Modeling [6.313337261965531]
HH-Codecは、24kHzのオーディオに対して毎秒24トークンで極端な圧縮を実現するニューラルコーデックである。
提案手法では,音声言語モデリングのためのベクトル量子化空間を慎重に設計し,情報損失を最小限に抑えながら圧縮効率を最適化する。
HH-Codecは、0.3kbpsの超低帯域で音声再構成における最先端性能を実現する。
論文 参考訳(メタデータ) (2025-07-25T02:44:30Z) - Unlocking Temporal Flexibility: Neural Speech Codec with Variable Frame Rate [14.03590336780589]
本稿では,ニューラル音声コーデックに可変フレームレート(VFR)を初めて導入する,TFC(Temporally Flexible Coding)手法を提案する。
TFCはフレームレートをシームレスに平均化し、時間エントロピーに基づいてフレームレートを動的に割り当てる。
実験結果から,TFCを用いた神経再建は高い柔軟性で最適品質を達成し,低フレームレートでも競争性能を維持することが示された。
論文 参考訳(メタデータ) (2025-05-22T16:10:01Z) - Improving the Diffusability of Autoencoders [54.920783089085035]
高品質な画像やビデオを生成するための主要なアプローチとして、潜伏拡散モデルが登場している。
我々は、現代のオートエンコーダのスペクトル分析を行い、その潜在空間における不規則な高周波成分を同定する。
我々は、この高周波成分が拡散合成プロセスの粗大な微細な性質に干渉し、生成品質を阻害する仮説を立てた。
論文 参考訳(メタデータ) (2025-02-20T18:45:44Z) - Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。
既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。
新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文 参考訳(メタデータ) (2024-05-10T09:18:17Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Latent-Domain Predictive Neural Speech Coding [33.458968443594415]
本稿では,VQ-VAEフレームワークに潜在ドメイン予測符号化を導入する。
本稿では,低レイテンシなニューラル音声符号化のためのTF-Codecをエンドツーエンドで提案する。
音声データセットの主観的な結果は、低レイテンシでは、提案したTF-Codecは1kbpsで9kbpsよりも大幅に品質が向上することを示している。
論文 参考訳(メタデータ) (2022-07-18T03:18:08Z) - Neural Vocoder is All You Need for Speech Super-resolution [56.84715616516612]
音声スーパーレゾリューション(SR)は、高周波成分を生成して音声サンプリング率を高めるタスクである。
既存の音声SR法は、固定的なアップサンプリング比のような制約のある実験環境で訓練される。
本稿では,ニューラルボコーダを用いた音声超解法(NVSR)を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:51:00Z) - SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。
SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。
エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文 参考訳(メタデータ) (2021-07-07T15:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。