Fugu-MT 論文翻訳(概要): SNAC: Multi-Scale Neural Audio Codec

論文の概要: SNAC: Multi-Scale Neural Audio Codec

arxiv url: http://arxiv.org/abs/2410.14411v1
Date: Fri, 18 Oct 2024 12:24:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.463112
Title: SNAC: Multi-Scale Neural Audio Codec
Title（参考訳）: SNAC: マルチスケールニューラルオーディオコーデック
Authors: Hubert Siuzdak, Florian Grötschla, Luca A. Lanzendörfer,
Abstract要約: マルチスケールニューラルオーディオコーデックはRVQの単純な拡張であり、量子化器は異なる時間分解能で動作することができる。本稿では,様々な時間分解能で量子化器を動作させることができるRVQの簡易拡張であるマルチスケールニューラルオーディオコーデックを提案する。
参考スコア（独自算出の注目度）: 1.0753191494611891
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Neural audio codecs have recently gained popularity because they can represent audio signals with high fidelity at very low bitrates, making it feasible to use language modeling approaches for audio generation and understanding. Residual Vector Quantization (RVQ) has become the standard technique for neural audio compression using a cascade of VQ codebooks. This paper proposes the Multi-Scale Neural Audio Codec, a simple extension of RVQ where the quantizers can operate at different temporal resolutions. By applying a hierarchy of quantizers at variable frame rates, the codec adapts to the audio structure across multiple timescales. This leads to more efficient compression, as demonstrated by extensive objective and subjective evaluations. The code and model weights are open-sourced at https://github.com/hubertsiuzdak/snac.
Abstract（参考訳）: ニューラルオーディオコーデックは、非常に低ビットレートで高い忠実度で音声信号を表現できるため、音声生成と理解に言語モデリングアプローチを使用することが可能である。残留ベクトル量子化(RVQ)は、VQコードブックのカスケードを用いたニューラルオーディオ圧縮の標準技術となっている。本稿では,様々な時間分解能で量子化器を動作させることができるRVQの簡易拡張であるMulti-Scale Neural Audio Codecを提案する。可変フレームレートで量子化器の階層を適用することにより、コーデックは複数の時間スケールにわたってオーディオ構造に適応する。これは、広範囲な客観的および主観的な評価によって示されるように、より効率的な圧縮をもたらす。コードとモデルの重み付けはhttps://github.com/hubertsiuzdak/snac.comでオープンソース化されている。

関連論文リスト

How to Label Resynthesized Audio: The Dual Role of Neural Audio Codecs in Audio Deepfake Detection [60.88800374832363]
最近のスプーフ検出研究では、ボコーダとニューラルオーディオコーデックの合成波形を用いて攻撃者をシミュレートしている。ラベル付け選択の違いが検出性能にどのように影響するかを調べ,ラベル付け戦略に対する洞察を提供する。
論文参考訳（メタデータ） (2026-02-18T10:29:07Z)
Finite Scalar Quantization Enables Redundant and Transmission-Robust Neural Audio Compression at Low Bit-rates [1.445167946386569]
我々は,Finite Scalar Quantization (FSQ) が,ノイズチャネルを介して伝送されるときにロバストな符号化を生成する,焼き込み冗長性を符号化していることを示す。ノイズチャネルによるコードシーケンスの伝送をシミュレートする際の RVQ と FSQ コーデックの性能を比較することにより,FSQ のビットレベルの摂動が極めて優れていることを示す。
論文参考訳（メタデータ） (2025-09-11T15:39:59Z)
NanoCodec: Towards High-Quality Ultra Fast Speech LLM Inference [19.201753265782685]
大規模言語モデル(LLM)は、音声コーデックを利用して音声をトークンに識別することで、かなり高度なオーディオ処理を行う。既存のオーディオコーデックは高いフレームレートで動作し、特に自己回帰モデルにおいてトレーニングと推論が遅くなる。我々は,12.5フレーム/秒(FPS)で高品質な圧縮を実現する,最先端オーディオであるNanoCodecを紹介する。
論文参考訳（メタデータ） (2025-08-07T20:20:32Z)
One Quantizer is Enough: Toward a Lightweight Audio Codec [10.903708510237875]
SQCodecは、単一量子化器を利用して既存のアプローチの限界に対処する軽量なニューラルオーディオである。 SQCodecはTConvとともに、合理化された畳み込みネットワークとローカルトランスフォーマーモジュールを調査している。実験により、SQCodecのオーディオ品質はマルチ量子化器に匹敵するベースラインを実現し、シングル量子化器の設計は適応性を向上した。
論文参考訳（メタデータ） (2025-04-07T11:34:39Z)
FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks [12.446324804274628]
FocalCodecは、単一のバイナリコードブックを使って音声を圧縮する焦点変調に基づく効率的な低ビットレートである。デモサンプル、コード、チェックポイントはhttps://lucadellalib.io/focalcodec-web/.com/で公開されている。
論文参考訳（メタデータ） (2025-02-06T19:24:50Z)
A Closer Look at Neural Codec Resynthesis: Bridging the Gap between Codec and Waveform Generation [65.05719674893999]
トークン予測と回帰に基づく2つの戦略について検討し,Schr"odinger Bridgeに基づく新しい手法を提案する。異なるデザイン選択が機械と人間の知覚にどのように影響するかを検討する。
論文参考訳（メタデータ） (2024-10-29T18:29:39Z)
Learning Source Disentanglement in Neural Audio Codec [20.335701584949526]
我々は、音源符号化と音源分離を組み合わせた新しいアプローチである、ソース分散ニューラルオーディオコーデック(SD-Codec)を紹介する。 SD-Codecは、音声の合成と分離を共同で学習することで、異なるドメインからの音声信号を異なるコードブック(離散表現の集合)に明示的に割り当てる。実験結果から,SD-Codecは競合的再合成品質を維持するだけでなく,分離結果に支えられ,潜伏空間における異なるソースの絡み合いが成功したことが示唆された。
論文参考訳（メタデータ） (2024-09-17T14:21:02Z)
Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model [36.61105228468503]
X-Codecは、Residual Vector Quantizationステージの前に、事前訓練されたセマンティックエンコーダのセマンティック機能を組み込んでいる。 X-Codecは音声合成タスクのWERを大幅に削減し、これらの利点を非音声アプリケーションに拡張する。音声合成における意味情報の統合は,音声生成における言語モデル全体の性能を大幅に向上させることを示す。
論文参考訳（メタデータ） (2024-08-30T10:24:07Z)
WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling [65.30937248905958]
言語モデルの重要な構成要素は、高次元の自然信号を低次元の離散トークンに圧縮するトークン化器である。本稿では,従来の音響領域におけるSOTA音響モデルよりもいくつかの利点があるWavTokenizerを紹介する。 WavTokenizerは、優れたUTMOSスコアを持つ最先端の再構築品質を実現し、本質的によりリッチなセマンティック情報を含んでいる。
論文参考訳（メタデータ） (2024-08-29T13:43:36Z)
SemantiCodec: An Ultra Low Bitrate Semantic Audio Codec for General Sound [40.810505707522324]
SemantiCodecは、様々なオーディオタイプで毎秒100トークン未満にオーディオを圧縮するように設計されている。本稿では,セマンティコーデックが再現性に関する最先端の記述を著しく上回っていることを示す。また,SemantiCodecはすべての評価音声コーデックよりもはるかにリッチな意味情報を含んでいることも示唆した。
論文参考訳（メタデータ） (2024-04-30T22:51:36Z)
High-Fidelity Audio Compression with Improved RVQGAN [49.7859037103693]
44.1KHzの音声をたった8kbpsの帯域でトークンに90倍圧縮する,高忠実なユニバーサルニューラルオーディオ圧縮アルゴリズムを提案する。我々は、すべてのドメイン(音声、環境、音楽など)を単一の普遍モデルで圧縮し、全てのオーディオの生成モデルに広く適用する。
論文参考訳（メタデータ） (2023-06-11T00:13:00Z)
High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文参考訳（メタデータ） (2022-10-24T17:52:02Z)
AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文参考訳（メタデータ） (2022-09-30T10:17:05Z)
Audio Captioning Transformer [44.68751180694813]
音声キャプションは、音声クリップの自然言語記述を自動的に生成することを目的としている。ほとんどのキャプションモデルはエンコーダ-デコーダアーキテクチャに従っており、デコーダはエンコーダによって抽出された音声特徴に基づいて単語を予測する。本稿では,エンコーダデコーダアーキテクチャに基づくフルトランスフォーマネットワークであるAudio Captioning Transformer (ACT)を提案する。
論文参考訳（メタデータ） (2021-07-21T00:31:50Z)
SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。 SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文参考訳（メタデータ） (2021-07-07T15:45:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。