論文の概要: SNAC: Multi-Scale Neural Audio Codec
- arxiv url: http://arxiv.org/abs/2410.14411v1
- Date: Fri, 18 Oct 2024 12:24:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:23:54.510349
- Title: SNAC: Multi-Scale Neural Audio Codec
- Title(参考訳): SNAC: マルチスケールニューラルオーディオコーデック
- Authors: Hubert Siuzdak, Florian Grötschla, Luca A. Lanzendörfer,
- Abstract要約: マルチスケールニューラルオーディオコーデックはRVQの単純な拡張であり、量子化器は異なる時間分解能で動作することができる。
本稿では,様々な時間分解能で量子化器を動作させることができるRVQの簡易拡張であるマルチスケールニューラルオーディオコーデックを提案する。
- 参考スコア(独自算出の注目度): 1.0753191494611891
- License:
- Abstract: Neural audio codecs have recently gained popularity because they can represent audio signals with high fidelity at very low bitrates, making it feasible to use language modeling approaches for audio generation and understanding. Residual Vector Quantization (RVQ) has become the standard technique for neural audio compression using a cascade of VQ codebooks. This paper proposes the Multi-Scale Neural Audio Codec, a simple extension of RVQ where the quantizers can operate at different temporal resolutions. By applying a hierarchy of quantizers at variable frame rates, the codec adapts to the audio structure across multiple timescales. This leads to more efficient compression, as demonstrated by extensive objective and subjective evaluations. The code and model weights are open-sourced at https://github.com/hubertsiuzdak/snac.
- Abstract(参考訳): ニューラルオーディオコーデックは、非常に低ビットレートで高い忠実度で音声信号を表現できるため、音声生成と理解に言語モデリングアプローチを使用することが可能である。
残留ベクトル量子化(RVQ)は、VQコードブックのカスケードを用いたニューラルオーディオ圧縮の標準技術となっている。
本稿では,様々な時間分解能で量子化器を動作させることができるRVQの簡易拡張であるMulti-Scale Neural Audio Codecを提案する。
可変フレームレートで量子化器の階層を適用することにより、コーデックは複数の時間スケールにわたってオーディオ構造に適応する。
これは、広範囲な客観的および主観的な評価によって示されるように、より効率的な圧縮をもたらす。
コードとモデルの重み付けはhttps://github.com/hubertsiuzdak/snac.comでオープンソース化されている。
関連論文リスト
- SemantiCodec: An Ultra Low Bitrate Semantic Audio Codec for General Sound [40.810505707522324]
SemantiCodecは、様々なオーディオタイプで毎秒100トークン未満にオーディオを圧縮するように設計されている。
本稿では,セマンティコーデックが再現性に関する最先端の記述を著しく上回っていることを示す。
また,SemantiCodecはすべての評価音声コーデックよりもはるかにリッチな意味情報を含んでいることも示唆した。
論文 参考訳(メタデータ) (2024-04-30T22:51:36Z) - Gull: A Generative Multifunctional Audio Codec [39.414833825453655]
Gullは汎用的なニューラルオーディオ圧縮および圧縮モデルである。
鍵となるコンポーネントは、ユニバーサルサンプルレートモデリング、ゲインシェイプ表現、残留ベクトル量子化モジュール、弾性デコーダネットワークである。
論文 参考訳(メタデータ) (2024-04-07T12:57:46Z) - FunCodec: A Fundamental, Reproducible and Integrable Open-source Toolkit
for Neural Speech Codec [55.95078490630001]
本稿では,オープンソースの音声処理ツールキット FunASR を拡張した基本的ニューラル音声ツールキット FunCodec について述べる。
FunCodecは、SoundStreamやEncodecといった最新のニューラルスピーチモデルに対して、再現可能なトレーニングレシピと推論スクリプトを提供する。
FunCodecとともに、事前訓練されたモデルも提供される。
論文 参考訳(メタデータ) (2023-09-14T03:18:24Z) - High-Fidelity Audio Compression with Improved RVQGAN [49.7859037103693]
44.1KHzの音声をたった8kbpsの帯域でトークンに90倍圧縮する,高忠実なユニバーサルニューラルオーディオ圧縮アルゴリズムを提案する。
我々は、すべてのドメイン(音声、環境、音楽など)を単一の普遍モデルで圧縮し、全てのオーディオの生成モデルに広く適用する。
論文 参考訳(メタデータ) (2023-06-11T00:13:00Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Audio Captioning Transformer [44.68751180694813]
音声キャプションは、音声クリップの自然言語記述を自動的に生成することを目的としている。
ほとんどのキャプションモデルはエンコーダ-デコーダアーキテクチャに従っており、デコーダはエンコーダによって抽出された音声特徴に基づいて単語を予測する。
本稿では,エンコーダデコーダアーキテクチャに基づくフルトランスフォーマネットワークであるAudio Captioning Transformer (ACT)を提案する。
論文 参考訳(メタデータ) (2021-07-21T00:31:50Z) - SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。
SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。
エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文 参考訳(メタデータ) (2021-07-07T15:45:42Z) - VQVC+: One-Shot Voice Conversion by Vector Quantization and U-Net
architecture [71.45920122349628]
自動エンコーダベースのVC手法は、話者のアイデンティティを付与することなく、入力音声中の話者とコンテンツをアンタングルする。
自動エンコーダベースのVCシステムでは,U-Netアーキテクチャを用いて音質を向上する。
論文 参考訳(メタデータ) (2020-06-07T14:01:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。