Fugu-MT 論文翻訳(概要): Low Bit-Rate Wideband Speech Coding: A Deep Generative Model based Approach

論文の概要: Low Bit-Rate Wideband Speech Coding: A Deep Generative Model based Approach

arxiv url: http://arxiv.org/abs/2102.02640v1
Date: Thu, 4 Feb 2021 14:37:16 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-05 15:56:36.078544
Title: Low Bit-Rate Wideband Speech Coding: A Deep Generative Model based Approach
Title（参考訳）: 低ビットレート広帯域音声符号化:深部生成モデルに基づくアプローチ
Authors: Gang Min, Xiongwei Zhang, Xia Zou, Xiangyang Liu
Abstract要約: 従来の低ビットレート音声符号化方式は、8kHzでのみ狭帯域音声を扱う。本稿では,メル周波数ケプストラム係数(MFCC)のベクトル量子化(VQ)による新しい手法を提案する。これは、最先端の古典的なMELPegressiveと比較して、低ビットレートで優れた音声品質を提供する。
参考スコア（独自算出の注目度）: 4.02517560480215
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Traditional low bit-rate speech coding approach only handles narrowband speech at 8kHz, which limits further improvements in speech quality. Motivated by recent successful exploration of deep learning methods for image and speech compression, this paper presents a new approach through vector quantization (VQ) of mel-frequency cepstral coefficients (MFCCs) and using a deep generative model called WaveGlow to provide efficient and high-quality speech coding. The coding feature is sorely an 80-dimension MFCCs vector for 16kHz wideband speech, then speech coding at the bit-rate throughout 1000-2000 bit/s could be scalably implemented by applying different VQ schemes for MFCCs vector. This new deep generative network based codec works fast as the WaveGlow model abandons the sample-by-sample autoregressive mechanism. We evaluated this new approach over the multi-speaker TIMIT corpus, and experimental results demonstrate that it provides better speech quality compared with the state-of-the-art classic MELPe codec at lower bit-rate.
Abstract（参考訳）: 従来の低ビットレート音声符号化アプローチは8khzでの狭帯域音声のみを扱うため、音声品質のさらなる改善は制限される。本稿では,画像と音声圧縮のための深層学習手法の探索に成功し,MFCCのベクトル量子化(VQ)とWaveGlowと呼ばれる深層生成モデルを用いて効率的かつ高品質な音声符号化を行うことにより,新たなアプローチを提案する。符号化機能は、16kHzの広帯域音声のための80次元のMFCCベクトルであり、1000-2000bit/sのビットレートでの音声符号化は、MFCCのベクトルに異なるVQスキームを適用することで、確実に実装できる。この新しいディープジェネレーションネットワークベースのコーデックは、サンプルごとの自動回帰機構をWaveGlowモデルが放棄すると高速に動作します。我々は,マルチスピーカ TIMIT コーパスに対するこの新しいアプローチを評価し,その実験結果から,従来の MELPe コーデックに比べて低ビットレートでの音声品質が向上することが実証された。

関連論文リスト

U-Codec: Ultra Low Frame-rate Neural Speech Codec for Fast High-fidelity Speech Generation [71.59514998928833]
U-Codecは5Hzの超低フレームレートで高忠実度再構成と高速音声生成を実現する。 U-Codecを大規模言語モデル(LLM)ベースの自動回帰TSモデルに適用する。
論文参考訳（メタデータ） (2025-10-19T05:09:20Z)
TaDiCodec: Text-aware Diffusion Speech Tokenizer for Speech Language Modeling [13.05578634768109]
テキスト対応拡散変換器音声コーデック(TaDiCodec)について紹介する。 TaDiCodecは拡散オートエンコーダによる量子化と再構成にエンドツーエンドの最適化を採用している。フレームレートは6.25Hzで、それに対応する圧縮は0.0875kbpsで、1層コードブックで24kHzの音声を処理できる。
論文参考訳（メタデータ） (2025-08-22T20:45:03Z)
SecoustiCodec: Cross-Modal Aligned Streaming Single-Codecbook Speech Codec [83.61175662066364]
音声コーデックは、音声とテキスト言語モデルを統一するための重要なブリッジとして機能する。既存の手法はセマンティックエンコーディングにおいていくつかの課題に直面している。本稿では,クロスモーダルな低ビットレートストリーミング音声コーデックSecoustiCodecを提案する。
論文参考訳（メタデータ） (2025-08-04T19:22:14Z)
Towards Generalized Source Tracing for Codec-Based Deepfake Speech [52.68106957822706]
本稿では,意味的特徴符号化にWhisperを,音響的特徴符号化にAudioMAEにWav2vec2を併用したSemantic-Acoustic Source Tracing Network(SASTNet)を紹介する。提案したSASTNetは,CodecFake+データセットのCoSGテストセット上での最先端性能を実現し,信頼性の高いソーストレースの有効性を実証する。
論文参考訳（メタデータ） (2025-06-08T21:36:10Z)
FlowDec: A flow-based full-band general audio codec with high perceptual quality [90.05968801459524]
FlowDecは、48kHzでサンプリングされた一般的なオーディオのためのニューラルフルバンドオーディオコーデックである。音声から一般的な音声へ一般化し、24kbit/sから4kbit/sまで移行する。
論文参考訳（メタデータ） (2025-03-03T12:49:09Z)
FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks [12.446324804274628]
FocalCodecは、単一のバイナリコードブックを使って音声を圧縮する焦点変調に基づく効率的な低ビットレートである。デモサンプル、コード、チェックポイントはhttps://lucadellalib.io/focalcodec-web/.com/で公開されている。
論文参考訳（メタデータ） (2025-02-06T19:24:50Z)
LSCodec: Low-Bitrate and Speaker-Decoupled Discrete Speech Codec [14.7377193484733]
LSCodecは低話者分離能力と低話者分離能力を持つ離散音声である。再構成実験により、LSCodecは、単一のコードブックだけで、ベースラインよりも語彙サイズが小さい、優れた知性およびオーディオ品質を示す。
論文参考訳（メタデータ） (2024-10-21T08:23:31Z)
VRVQ: Variable Bitrate Residual Vector Quantization for Audio Compression [29.368893236587343]
最近のニューラルオーディオ圧縮モデルでは、残留ベクトル量子化(RVQ)が徐々に採用されているこれらのモデルはフレーム毎に一定数のコードブックを使用し、レート・歪曲トレードオフの点では最適である。本稿では,音声コーデックの可変RVQ (VRVQ) を提案する。
論文参考訳（メタデータ） (2024-10-08T13:18:24Z)
From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文参考訳（メタデータ） (2023-08-02T22:14:29Z)
High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文参考訳（メタデータ） (2022-10-24T17:52:02Z)
Graph Neural Networks for Channel Decoding [71.15576353630667]
低密度パリティチェック(LDPC)やBCH符号など、様々な符号化方式の競合復号性能を示す。ニューラルネットワーク(NN)は、与えられたグラフ上で一般化されたメッセージパッシングアルゴリズムを学習する。提案するデコーダを,従来のチャネル復号法および最近のディープラーニングに基づく結果と比較した。
論文参考訳（メタデータ） (2022-07-29T15:29:18Z)
Latent-Domain Predictive Neural Speech Coding [22.65761249591267]
本稿では,VQ-VAEフレームワークに潜在ドメイン予測符号化を導入する。本稿では,低レイテンシなニューラル音声符号化のためのTF-Codecをエンドツーエンドで提案する。多言語音声データセットの主観的な結果から、低レイテンシでは1kbpsのTF-Codecは9kbpsよりも大幅に品質が向上することが示された。
論文参考訳（メタデータ） (2022-07-18T03:18:08Z)
Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文参考訳（メタデータ） (2022-03-31T15:33:56Z)
Neural Vocoder is All You Need for Speech Super-resolution [56.84715616516612]
音声スーパーレゾリューション(SR)は、高周波成分を生成して音声サンプリング率を高めるタスクである。既存の音声SR法は、固定的なアップサンプリング比のような制約のある実験環境で訓練される。本稿では,ニューラルボコーダを用いた音声超解法(NVSR)を提案する。
論文参考訳（メタデータ） (2022-03-28T17:51:00Z)
A Streamwise GAN Vocoder for Wideband Speech Coding at Very Low Bit Rate [8.312162364318235]
本稿では、1.6kbit/sで符号化されたパラメータから広帯域音声波形を生成することができるGANボコーダを提案する。提案モデルは,フレーム単位で動作可能なStyleMelGANボコーダの改良版である。
論文参考訳（メタデータ） (2021-08-09T14:03:07Z)
SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。 SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文参考訳（メタデータ） (2021-07-07T15:45:42Z)
Scalable and Efficient Neural Speech Coding [24.959825692325445]
本研究では,音声圧縮のためのスケーラブルかつ効率的なニューラル波形(NWC)を提案する。提案するcnnオートエンコーダは、量子化と符号化を訓練可能なモジュールとして定義する。他の自己回帰型デコーダベースのニューラルスピーチと比較すると、デコーダのアーキテクチャは大幅に小さい。
論文参考訳（メタデータ） (2021-03-27T00:10:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。