論文の概要: Cross-Scale Vector Quantization for Scalable Neural Speech Coding
- arxiv url: http://arxiv.org/abs/2207.03067v1
- Date: Thu, 7 Jul 2022 03:23:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-08 14:52:03.835276
- Title: Cross-Scale Vector Quantization for Scalable Neural Speech Coding
- Title(参考訳): スケーラブルなニューラル音声符号化のためのクロススケールベクトル量子化
- Authors: Xue Jiang, Xiulian Peng, Huaying Xue, Yuan Zhang, Yan Lu
- Abstract要約: ビットレートスケーラビリティは、リアルタイム通信においてオーディオコーディングに望ましい機能である。
本稿では,クロススケールな拡張型ベクトル量子化スキーム(CSVQ)を提案する。
このように、ビットストリームの一部しか受信していない場合、粗いレベル信号が再構成され、より多くのビットが利用可能になるにつれて、徐々に品質が向上する。
- 参考スコア(独自算出の注目度): 22.65761249591267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bitrate scalability is a desirable feature for audio coding in real-time
communications. Existing neural audio codecs usually enforce a specific bitrate
during training, so different models need to be trained for each target
bitrate, which increases the memory footprint at the sender and the receiver
side and transcoding is often needed to support multiple receivers. In this
paper, we introduce a cross-scale scalable vector quantization scheme (CSVQ),
in which multi-scale features are encoded progressively with stepwise feature
fusion and refinement. In this way, a coarse-level signal is reconstructed if
only a portion of the bitstream is received, and progressively improves the
quality as more bits are available. The proposed CSVQ scheme can be flexibly
applied to any neural audio coding network with a mirrored auto-encoder
structure to achieve bitrate scalability. Subjective results show that the
proposed scheme outperforms the classical residual VQ (RVQ) with scalability.
Moreover, the proposed CSVQ at 3 kbps outperforms Opus at 9 kbps and Lyra at
3kbps and it could provide a graceful quality boost with bitrate increase.
- Abstract(参考訳): ビットレートスケーラビリティは、リアルタイム通信においてオーディオコーディングに望ましい機能である。
既存のニューラルオーディオコーデックは通常、トレーニング中に特定のビットレートを強制するので、ターゲットのビットレートごとに異なるモデルをトレーニングする必要がある。
本稿では,ステップワイズ特徴の融合と精細化により,マルチスケール特徴を段階的に符号化するクロススケールスケーラブルベクトル量子化スキーム(csvq)を提案する。
このようにして、ビットストリームの一部を受信するだけで粗いレベルの信号が再構成され、より多くのビットが利用可能になると徐々に品質が向上する。
提案されたcsvqスキームは、ミラー付きオートエンコーダ構造を持つ任意のニューラルオーディオ符号化ネットワークに柔軟に適用でき、ビットレートスケーラビリティを実現することができる。
提案手法は,古典的残留VQ(RVQ)よりも拡張性が高いことを示す。
さらに、3kbpsのcsvqは9kbpsのopusと3kbpsのlyraを上回り、ビットレートを増加させる優雅な品質向上をもたらすことができた。
関連論文リスト
- VRVQ: Variable Bitrate Residual Vector Quantization for Audio Compression [29.368893236587343]
最近のニューラルオーディオ圧縮モデルでは、残留ベクトル量子化(RVQ)が徐々に採用されている
これらのモデルはフレーム毎に一定数のコードブックを使用し、レート・歪曲トレードオフの点では最適である。
本稿では,音声コーデックの可変RVQ (VRVQ) を提案する。
論文 参考訳(メタデータ) (2024-10-08T13:18:24Z) - High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - Streaming Audio-Visual Speech Recognition with Alignment Regularization [69.30185151873707]
本稿では,ハイブリッド接続型時間分類(CTC)/アテンションニューラルネットワークアーキテクチャに基づくストリーミングAV-ASRシステムを提案する。
提案したAV-ASRモデルは、オフラインおよびオンライン設定でLip Reading Sentences 3データセット上で、WERの2.0%と2.6%を達成する。
論文 参考訳(メタデータ) (2022-11-03T20:20:47Z) - Graph Neural Networks for Channel Decoding [71.15576353630667]
低密度パリティチェック(LDPC)やBCH符号など、様々な符号化方式の競合復号性能を示す。
ニューラルネットワーク(NN)は、与えられたグラフ上で一般化されたメッセージパッシングアルゴリズムを学習する。
提案するデコーダを,従来のチャネル復号法および最近のディープラーニングに基づく結果と比較した。
論文 参考訳(メタデータ) (2022-07-29T15:29:18Z) - CADyQ: Content-Aware Dynamic Quantization for Image Super-Resolution [55.50793823060282]
本稿では,画像超解像(SR)ネットワークのための新しいコンテント・アウェア・ダイナミック量子化(CADyQ)手法を提案する。
CADyQは、入力画像のローカル内容に基づいて、局所領域と層に最適なビットを適応的に割り当てる。
パイプラインは様々なSRネットワークでテストされ、いくつかの標準ベンチマークで評価されている。
論文 参考訳(メタデータ) (2022-07-21T07:50:50Z) - Latent-Domain Predictive Neural Speech Coding [22.65761249591267]
本稿では,VQ-VAEフレームワークに潜在ドメイン予測符号化を導入する。
本稿では,低レイテンシなニューラル音声符号化のためのTF-Codecをエンドツーエンドで提案する。
多言語音声データセットの主観的な結果から、低レイテンシでは1kbpsのTF-Codecは9kbpsよりも大幅に品質が向上することが示された。
論文 参考訳(メタデータ) (2022-07-18T03:18:08Z) - Neural Vocoder is All You Need for Speech Super-resolution [56.84715616516612]
音声スーパーレゾリューション(SR)は、高周波成分を生成して音声サンプリング率を高めるタスクである。
既存の音声SR法は、固定的なアップサンプリング比のような制約のある実験環境で訓練される。
本稿では,ニューラルボコーダを用いた音声超解法(NVSR)を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:51:00Z) - SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。
SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。
エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文 参考訳(メタデータ) (2021-07-07T15:45:42Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - Scalable and Efficient Neural Speech Coding [24.959825692325445]
本研究では,音声圧縮のためのスケーラブルかつ効率的なニューラル波形(NWC)を提案する。
提案するcnnオートエンコーダは、量子化と符号化を訓練可能なモジュールとして定義する。
他の自己回帰型デコーダベースのニューラルスピーチと比較すると、デコーダのアーキテクチャは大幅に小さい。
論文 参考訳(メタデータ) (2021-03-27T00:10:16Z) - Enhancement Of Coded Speech Using a Mask-Based Post-Filter [9.324642081509754]
時間周波数領域におけるマスキングに依存したデータ駆動ポストフィルタを提案する。
完全に接続されたニューラルネットワーク(FCNN)、畳み込みエンコーダデコーダ(CED)ネットワーク、長い短期記憶(LSTM)ネットワークは、時間周波数ビン当たりの実数値マスクを推定するために不必要である。
論文 参考訳(メタデータ) (2020-10-12T09:48:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。