論文の概要: SpectroStream: A Versatile Neural Codec for General Audio
- arxiv url: http://arxiv.org/abs/2508.05207v1
- Date: Thu, 07 Aug 2025 09:44:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.794005
- Title: SpectroStream: A Versatile Neural Codec for General Audio
- Title(参考訳): SpectroStream: 汎用オーディオのためのVersatile Neural Codec
- Authors: Yunpeng Li, Kehang Han, Brian McWilliams, Zalan Borsos, Marco Tagliasacchi,
- Abstract要約: SpectroStreamはフルバンドマルチチャネルニューラルオーディオモデルである。
24kHzのモノフォニックオーディオ以上の機能を持つ。
48kHzのステレオ音楽を4-16kbpsのビットレートで高品質に再現できる。
- 参考スコア(独自算出の注目度): 32.18491882768462
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose SpectroStream, a full-band multi-channel neural audio codec. Successor to the well-established SoundStream, SpectroStream extends its capability beyond 24 kHz monophonic audio and enables high-quality reconstruction of 48 kHz stereo music at bit rates of 4--16 kbps. This is accomplished with a new neural architecture that leverages audio representation in the time-frequency domain, which leads to better audio quality especially at higher sample rate. The model also uses a delayed-fusion strategy to handle multi-channel audio, which is crucial in balancing per-channel acoustic quality and cross-channel phase consistency.
- Abstract(参考訳): 広帯域マルチチャネルニューラルオーディオコーデックであるSpectroStreamを提案する。
確立されたSoundStreamの後継として、SpectroStreamは24kHzのモノフォニックオーディオを超えて、48kHzのステレオ音楽を4-16kbpsのビットレートで高品質に再現することができる。
これは、時間周波数領域におけるオーディオ表現を活用する新しいニューラルアーキテクチャによって実現され、特に高いサンプリングレートでオーディオ品質が向上する。
このモデルは、マルチチャンネルオーディオを扱うために、遅延融合戦略も使用しており、これはチャンネルごとの音響品質とチャンネル間の位相整合性のバランスに不可欠である。
関連論文リスト
- FlowDec: A flow-based full-band general audio codec with high perceptual quality [90.05968801459524]
FlowDecは、48kHzでサンプリングされた一般的なオーディオのためのニューラルフルバンドオーディオコーデックである。
音声から一般的な音声へ一般化し、24kbit/sから4kbit/sまで移行する。
論文 参考訳(メタデータ) (2025-03-03T12:49:09Z) - Compression of Higher Order Ambisonics with Multichannel RVQGAN [0.0]
RVQGANニューラルコーディング法のマルチチャネル拡張を提案し,3次Ambisonics音声のデータ駆動圧縮を実現する。
このモデルには、他のタイプのコンテンツやマルチチャネルフォーマットを学ぶための潜在的な応用がある。
論文 参考訳(メタデータ) (2024-11-18T19:48:18Z) - Ultra-lightweight Neural Differential DSP Vocoder For High Quality
Speech Synthesis [9.916195285279931]
DSPヴォコーダは、過度に滑らかな音響モデル予測を消費するため、音質が低下することが多い。
DSPボコーダと共同最適化された音響モデルを用いた超軽量DSP(DDSP)ボコーダを提案し,声道スペクトルの特徴を抽出せずに学習する。
論文 参考訳(メタデータ) (2024-01-19T02:51:00Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - Audio Spectral Enhancement: Leveraging Autoencoders for Low Latency
Reconstruction of Long, Lossy Audio Sequences [0.0]
本稿では,低品質MP3音声波の長いシーケンスから高周波数を再構成するための新しい手法を提案する。
本アーキテクチャは,スキップ接続による音声波のスペクトル構造を保ちながら,いくつかのボトルネックを生じさせる。
差分量子化手法を用いて初期モデルのサイズを半減し、同時に推論時間を短縮する方法を示す。
論文 参考訳(メタデータ) (2021-08-08T18:06:21Z) - SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。
SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。
エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文 参考訳(メタデータ) (2021-07-07T15:45:42Z) - NU-GAN: High resolution neural upsampling with GAN [60.02736450639215]
NU-GANはサンプリングレート(アップサンプリング)の低値から高値へのオーディオ再サンプリング法である
このようなアプリケーションは44.1kHzまたは48kHzの解像度でオーディオを使用するが、現在の音声合成法は最大24kHzの解像度で処理できる。
ABX選好試験は、我々のNU-GAN再サンプリング装置が22kHzから44.1kHzのオーディオを再サンプリングでき、これは元のオーディオと区別できるが、単一の話者データセットのランダムな確率より7.4%高く、マルチスピーカーデータセットの確率より10.8%高い。
論文 参考訳(メタデータ) (2020-10-22T01:00:23Z) - Audio Dequantization for High Fidelity Audio Generation in Flow-based
Neural Vocoder [29.63675159839434]
フローベースのニューラルボコーダは、リアルタイム音声生成タスクにおいて大幅に改善されている。
フローベースニューラルボコーダにおける高忠実度音声生成のための音声復調手法を提案する。
論文 参考訳(メタデータ) (2020-08-16T09:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。